java抓取网页内容(JAVA的API可以顺利的抓取网络上的大部分指定的网页内容)

优采云 发布时间: 2021-09-23 05:26

  java抓取网页内容(JAVA的API可以顺利的抓取网络上的大部分指定的网页内容)

  通过Java的API,您可以顺利地抓取网络上的大部分指定的Web内容,并分享此方法以了解和体验您。最简单的爬行方式是:

  java代码

  

  urlurl = newul(myurl); bufferedReaderbr = newbuferedreader(newinputstreamReader(url.openstream())); strings =“”; stringbuffersb = newstringbuffer(“”);而((s = br.readline())= null){i ++; sb.append(s +“\ r \ n”);}

  此方法崩溃常规页面应该没有问题,但是当某些网页中有一些嵌套重定向连接时,它将报告服务器等错误重定向太多次,因为还有另一个网页。有些代码正在转到其他网页,并且循环是由程序引起的。如果您只想抓住此URL中的内容,您不希望允许它具有其他网页跳转,您可以使用以下代码。

  java代码

  

  urlurlmy = newul(myurl); httpurlconnectioncon =(httpurlconnection)urlmy.openconnection(); con.setfollowredirects(真实); con.setInstancefollowredireds(false); con.connect(); bufferedReaderbr = newbufferedreader(newinputstreamreader(con.getinputstream(),“utf-8”)); strings =“”; stringbuffersb = newstringsbuffer(“”);虽然((s = br.readline())!= null){sb.append(s +“\ r \ n”);}

  这种单词,程序不会髋关节其他页面才能抓取其他内容,这是我们的目的。

  如果我们在内部网络中,还需要给它一个代理,Java为具有特殊系统属性的代理服务器提供支持,只要添加到以下程序“。

  java代码

  

  system.getproperties()。 setProperty(“http.proxyhost”,proxyname; system.getproperties()。setProperty(“http.proxyport”,端口);

  如果这是,您可以实现您想要抓取自己内部网络的内容。

  上面的程序在SB字符串中盖章,我们可以通过正则表达分析,提取您想要的特定内容,对我来说,呵呵,这是一件美妙的事情! !

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线