java爬虫抓取动态网页(工具类实现比较简单,就一个get方法,读取请求地址的响应内容)
优采云 发布时间: 2021-10-12 07:21java爬虫抓取动态网页(工具类实现比较简单,就一个get方法,读取请求地址的响应内容)
工具类实现比较简单,只是一个get方法,读取请求地址的响应内容,这里我们是用来爬取网页内容的,这里没有代理,在真正的爬取过程中,当你请求一个大量网站的时候,对方会有一系列的策略来禁用你的请求。这时候代理就派上用场了。通过代理设置不同的IP来抓取数据。
接下来我们找一个有图片的网页,试试爬取功能。
首先抓取网页的内容,然后正常解析出网页的标签,再解析img地址。执行程序我们可以得到如下内容:
通过上面的地址我们可以将图片下载到本地,下面我们来写一个图片下载方法:
这样就很简单的实现了一个抓图和提取图片的功能。好像比较麻烦。如果你需要写正则,我给你介绍一个更简单的方法。如果您熟悉 jQuery,则可以提取元素。很简单,这个框架就是Jsoup。
jsoup 是一个 Java HTML 解析器,可以直接解析 URL 地址和 HTML 文本内容。它提供了一个非常省力的API,可以通过DOM、CSS和类似jQuery的操作方法来检索和操作数据。
添加jsoup的依赖:
使用jsoup后提取的代码只需要简单的几行:
通过Jsoup.parse创建一个文档对象,然后通过getElementsByTag方法提取所有图片标签,循环遍历,通过attr方法获取图片的src属性,然后下载图片。
Jsoup 使用起来非常简单。当然,还有很多其他的用于解析网页的操作。您可以查看信息并了解它。
我们再升级一下,做一个小工具,提供一个简单的界面,输入一个网页地址,点击提取按钮,然后自动下载图片,我们就可以用swing来写界面了。
执行 main 方法后的第一件事是我们的接口,如下所示:
截图 2018-06-18 09.50.34 PM.png
输入地址,点击提取按钮下载图片。
课程推荐
大数据时代,如何形成大数据。
大量的用户,每天大量的日志。
搭建爬虫,抓取数十亿条数据进行分析分析。
不仅仅是 Python 可以做爬虫,Java 仍然可以做。
今天就带大家写一个简单的抓图程序,把网页上的所有图片都下载下来
图片
本课程将带领大家一步步编写爬虫程序,爬取到我们想要的数据,在非登录或者需要登录的情况下爬下来。
完成本课程后,将培训学员成为合格的Java网络爬虫工程师,并能胜任相关爬虫工作;
学习后,能够使用XPath表达式进行信息抽取;
学习掌握抓包技术后,掌握如何提取屏蔽数据信息,自动模拟Ajax异步请求数据;
熟悉jsoup提取网页数据。
Selenium 控制浏览器获取数据。
课程大纲