java实现一个简单的网路爬虫代码示例

优采云 发布时间: 2020-05-15 08:01

  更新时间:2017年11月13日 08:50:04 作者:在远行的路上

  这篇文章主要介绍了java实现一个简单的网路爬虫代码示例,还是挺不错的,这里分享给你们,需要的同学可以参考下。

  目前市面上流行的爬虫以python居多,简单了解过后网络爬虫代码,觉得简单的一些页面的爬虫,主要就是去解析目标页面(html)。那么就在想网络爬虫代码,java有没有用户便捷解析html页面呢?找到了一个jsoup包,一个十分便捷解析html的工具呢。

  使用方法也十分简单,引入jar包:

  

<dependency>

<groupId>org.jsoup</groupId>

<artifactId>jsoup</artifactId>

<version>1.8.3</version>

</dependency>

  使用http工具,请求获取目标页面的整个html页面信息,然后使用jsoup解析:

  

//获取html页面信息

String html = getHtml();

//使用jsoup将html解析为Document对象

Document doc = Jsoup.parse(html);

//后续操作就可以解析这个DOM树了,非常简单。

  总结

  以上就是本文关于java实现一个简单的网路爬虫代码示例的全部内容,希望对你们有所帮助。感兴趣的同学可以继续参阅本站:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线