java爬虫抓取网页数据(一下关于网络爬虫的入门知识入门教程)

优采云发布时间: 2021-11-20 03:18

　　经常听到“爬行动物”这个词，但它是什么意思呢？它是干什么用的？下面就让万禾的专业老师分享一些关于网络爬虫的入门知识。

　　0 1

　　网络爬虫

　　1.1. 姓名

　　网络爬虫（又称网络蜘蛛、网络机器人）是按照一定的规则自动抓取万维网上信息的程序或脚本。

　　其他不太常用的名称是蚂蚁、自动索引、模拟器或蠕虫。

　　1.2. 简介

　　网络爬虫通过网页的链接地址搜索网页。从某个页面（通常是首页）开始，阅读网页的内容，找到网页中的其他链接地址，然后通过这些链接地址进行搜索。一个网页，这样一直循环下去，直到这个网站的所有网页都被抓取完。

　　如果把整个互联网看作一个网站，那么网络蜘蛛就可以利用这个原理来抓取互联网上的所有网页。

　　因此，如果要抓取互联网上的数据，不仅需要一个爬虫程序，还需要一个能够接受、处理和过滤“爬虫”发回的数据的服务器。爬虫抓取的数据量越大，对服务器的性能要求就越高。.

　　0 2

　　过程

　　网络爬虫有什么作用？他的主要工作是根据指定的 URL 地址发送请求，得到响应，然后解析响应。一方面，它从响应中找到您想要查找的数据，另一方面，它从响应中解析出来。新建URL路径，然后继续访问，继续解析；继续寻找需要的数据，继续解析新的URL路径。

　　这是网络爬虫的主要工作。这是流程图：

　　通过上面的流程图，您可以大致了解网络爬虫是做什么的，并基于这些，您可以设计一个简单的网络爬虫。

　　一个简单爬虫的必要功能包括：

　　发送请求和获取响应的功能；

　　解析响应的功能；

　　存储过滤数据的功能；

　　处理解析出的URL路径的功能；

　　2.1. 兴趣点

　　爬虫需要注意的三点：

　　爬取目标的描述或定义；

　　网页或数据的分析和过滤；

　　URL 的搜索策略。

　　0 3

　　分类

　　根据系统结构和实现技术，网络爬虫大致可以分为以下几类：

　　通用网络爬虫

　　专注的网络爬虫

　　增量网络爬虫

　　深网爬虫。

　　实际的网络爬虫系统通常是通过多种爬虫技术的组合来实现的。

　　0 4

　　思维分析

　　下面我就用我们的官网来跟大家分析一下如何实现这样的爬虫：

　　首先观察我们爬虫的起始页面是：

　　分析页面：

　　所有喜讯信息的URL用XPath表达式表示：//div[@class='main_l']/ul/li

　　相关资料：

　　标题：用XPath表达式表示//div[@class='content']/h4/a/text()

　　说明：使用 XPath 表达式来表示 //div[@class='content']/p/text()

　　图片：用XPath表达式表示//a/img/@src

　　好了，我们已经在上面的代码中找到了需要获取的关键信息的XPath表达式，接下来就可以正式编写代码来实现了。

　　0 5

　　代码

　　代码实现部分使用了webmagic框架，因为它比使用基本的Java网络编程要简单得多。

　　5.1. 代码结构

　　5.2. 程序入口

　　演示.java

　　5.3. 爬取过程

　　WanhoPageProcessor.java

　　5.4. 保存结果

　　WanhoPipeline.java

　　5.5. 模型对象

　　文章Vo.java

　　如果您想了解更多的网络爬虫知识，可以到万禾官网，注册后可以免费学习Java爬虫项目实战。

　　面对面专业指导

　　白手起家

　　进入IT高薪圈

　　从这里开始

0

2021-11-20

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(一下关于网络爬虫的入门知识入门教程)

0 个评论

发起人

AI时代内容工厂

java爬虫抓取网页数据(一下关于网络爬虫的入门知识入门教程)

0 个评论

发起人

相关问题