爬虫抓取网页数据(通用爬虫如何获取一个新网站的工作流程及解决方法)

优采云发布时间: 2021-12-03 06:09

　　万能爬虫是一种自动提取网页的程序。它从 Internet 下载网页以供搜索引擎使用。它是搜索引擎的重要组成部分。

　　通用爬虫从一个或多个初始网页的网址开始，获取初始网页上的网址。在抓取网页的过程中，它不断地从当前页面中提取新的 URL 并将它们放入队列中，直到满足系统的某个停止条件。图1说明了一般爬虫爬取网页的过程。

　　一般的网络爬虫从互联网上采集网页，采集信息，这些网页信息用于为搜索引擎的索引提供支持，它决定了整个引擎系统的内容是否丰富，信息是否及时，所以它的性能好坏直接影响到搜索引擎的有效性。

　　但是一般用于搜索引擎的爬虫的爬取行为需要遵守一定的规则，遵循一些命令或者文件的内容，比如标记为nofollow的链接，或者Robots协议（后面会有相关介绍）。

　　另一个技巧：搜索引擎工作流程

　　搜索引擎是通用爬虫最重要的应用领域，也是大家在使用网络功能时最大的助手。接下来介绍一下搜索引擎的工作流程，主要包括以下几个步骤。

　　1. 爬网

　　搜索引擎使用通用爬虫来抓取网页。基本工作流程与其他爬虫类似。一般步骤如下：

　　（1)先选择一部分*敏*感*词*网址，将这些网址放入待抓取的网址队列；

　　（2)取出要爬取的URL，解析DNS得到主机的IP，下载该URL对应的网页，存放在下载的网页库中，将这些URL放入已爬取的URL队列.

　　（3)对已爬取的URL队列中的URL进行分析，分析其中的其他URL，将这些URL放入待爬取的URL队列中，从而进入下一个循环。

　　那么，搜索引擎如何获取新的网站 URL？

　　（1)New网站主动提交网址到搜索引擎：（如百度）。

　　（2)在其他网站上设置新的网站*敏*感*词*内）。

　　（3)搜索引擎和DNS解析服务商（如DNSPod等）合作，新的网站域名会被快速抓取。

　　2. 数据存储

　　搜索引擎通过爬虫爬到网页后，将数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。

　　在抓取页面时，搜索引擎蜘蛛也会做一定量的重复内容检测。一旦他们遇到大量抄袭、采集或网站上访问权重极低的复制内容，他们很可能会停止爬行。

　　3. 预处理

　　搜索引擎会对爬虫检索到的页面进行不同步骤的预处理，包括：

　　·提取文本

　　·中文分词

0

2021-12-03

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册