java爬虫抓取动态网页(工具类实现比较简单，就一个get方法，读取请求地址的响应内容)

优采云发布时间: 2021-10-12 07:21

　　工具类实现比较简单，只是一个get方法，读取请求地址的响应内容，这里我们是用来爬取网页内容的，这里没有代理，在真正的爬取过程中，当你请求一个大量网站的时候，对方会有一系列的策略来禁用你的请求。这时候代理就派上用场了。通过代理设置不同的IP来抓取数据。

　　接下来我们找一个有图片的网页，试试爬取功能。

　　首先抓取网页的内容，然后正常解析出网页的标签，再解析img地址。执行程序我们可以得到如下内容：

　　通过上面的地址我们可以将图片下载到本地，下面我们来写一个图片下载方法：

　　这样就很简单的实现了一个抓图和提取图片的功能。好像比较麻烦。如果你需要写正则，我给你介绍一个更简单的方法。如果您熟悉 jQuery，则可以提取元素。很简单，这个框架就是Jsoup。

　　jsoup 是一个 Java HTML 解析器，可以直接解析 URL 地址和 HTML 文本内容。它提供了一个非常省力的API，可以通过DOM、CSS和类似jQuery的操作方法来检索和操作数据。

　　添加jsoup的依赖：

　　使用jsoup后提取的代码只需要简单的几行：

　　通过Jsoup.parse创建一个文档对象，然后通过getElementsByTag方法提取所有图片标签，循环遍历，通过attr方法获取图片的src属性，然后下载图片。

　　Jsoup 使用起来非常简单。当然，还有很多其他的用于解析网页的操作。您可以查看信息并了解它。

　　我们再升级一下，做一个小工具，提供一个简单的界面，输入一个网页地址，点击提取按钮，然后自动下载图片，我们就可以用swing来写界面了。

　　执行 main 方法后的第一件事是我们的接口，如下所示：

　　截图 2018-06-18 09.50.34 PM.png

　　输入地址，点击提取按钮下载图片。

　　课程推荐

　　大数据时代，如何形成大数据。

　　大量的用户，每天大量的日志。

　　搭建爬虫，抓取数十亿条数据进行分析分析。

　　不仅仅是 Python 可以做爬虫，Java 仍然可以做。

　　今天就带大家写一个简单的抓图程序，把网页上的所有图片都下载下来

　　图片

　　本课程将带领大家一步步编写爬虫程序，爬取到我们想要的数据，在非登录或者需要登录的情况下爬下来。

　　完成本课程后，将培训学员成为合格的Java网络爬虫工程师，并能胜任相关爬虫工作；

　　学习后，能够使用XPath表达式进行信息抽取；

　　学习掌握抓包技术后，掌握如何提取屏蔽数据信息，自动模拟Ajax异步请求数据；

　　熟悉jsoup提取网页数据。

　　Selenium 控制浏览器获取数据。

　　课程大纲

0

2021-10-12

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册