java爬虫抓取网页数据(一下关于网络爬虫的入门知识入门教程)
优采云 发布时间: 2021-11-20 03:18java爬虫抓取网页数据(一下关于网络爬虫的入门知识入门教程)
经常听到“爬行动物”这个词,但它是什么意思呢?它是干什么用的?下面就让万禾的专业老师分享一些关于网络爬虫的入门知识。
0 1
网络爬虫
1.1. 姓名
网络爬虫(又称网络蜘蛛、网络机器人)是按照一定的规则自动抓取万维网上信息的程序或脚本。
其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。
1.2. 简介
网络爬虫通过网页的链接地址搜索网页。从某个页面(通常是首页)开始,阅读网页的内容,找到网页中的其他链接地址,然后通过这些链接地址进行搜索。一个网页,这样一直循环下去,直到这个网站的所有网页都被抓取完。
如果把整个互联网看作一个网站,那么网络蜘蛛就可以利用这个原理来抓取互联网上的所有网页。
因此,如果要抓取互联网上的数据,不仅需要一个爬虫程序,还需要一个能够接受、处理和过滤“爬虫”发回的数据的服务器。爬虫抓取的数据量越大,对服务器的性能要求就越高。.
0 2
过程
网络爬虫有什么作用?他的主要工作是根据指定的 URL 地址发送请求,得到响应,然后解析响应。一方面,它从响应中找到您想要查找的数据,另一方面,它从响应中解析出来。新建URL路径,然后继续访问,继续解析;继续寻找需要的数据,继续解析新的URL路径。
这是网络爬虫的主要工作。这是流程图:
通过上面的流程图,您可以大致了解网络爬虫是做什么的,并基于这些,您可以设计一个简单的网络爬虫。
一个简单爬虫的必要功能包括:
发送请求和获取响应的功能;
解析响应的功能;
存储过滤数据的功能;
处理解析出的URL路径的功能;
2.1. 兴趣点
爬虫需要注意的三点:
爬取目标的描述或定义;
网页或数据的分析和过滤;
URL 的搜索策略。
0 3
分类
根据系统结构和实现技术,网络爬虫大致可以分为以下几类:
通用网络爬虫
专注的网络爬虫
增量网络爬虫
深网爬虫。
实际的网络爬虫系统通常是通过多种爬虫技术的组合来实现的。
0 4
思维分析
下面我就用我们的官网来跟大家分析一下如何实现这样的爬虫:
首先观察我们爬虫的起始页面是:
分析页面:
所有喜讯信息的URL用XPath表达式表示://div[@class='main_l']/ul/li
相关资料:
标题:用XPath表达式表示//div[@class='content']/h4/a/text()
说明:使用 XPath 表达式来表示 //div[@class='content']/p/text()
图片:用XPath表达式表示//a/img/@src
好了,我们已经在上面的代码中找到了需要获取的关键信息的XPath表达式,接下来就可以正式编写代码来实现了。
0 5
代码
代码实现部分使用了webmagic框架,因为它比使用基本的Java网络编程要简单得多。
5.1. 代码结构
5.2. 程序入口
演示.java
5.3. 爬取过程
WanhoPageProcessor.java
5.4. 保存结果
WanhoPipeline.java
5.5. 模型对象
文章Vo.java
如果您想了解更多的网络爬虫知识,可以到万禾官网,注册后可以免费学习Java爬虫项目实战。
面对面专业指导
白手起家
进入IT高薪圈
从这里开始