搜索引擎如何抓取网页(通用爬虫如何获取一个新网站的工作流程及解决方法)
优采云 发布时间: 2021-10-01 04:04搜索引擎如何抓取网页(通用爬虫如何获取一个新网站的工作流程及解决方法)
万能爬虫是一种自动提取网页的程序。它从互联网上为搜索引擎下载网页,是搜索引擎的重要组成部分。
一般爬虫从一个或几个初始网页的网址开始,获取初始网页上的网址,在网页抓取过程中不断从当前网页中提取新的网址放入队列中,直到某个停止条件系统的满足。图1说明了一般爬虫爬取网页的过程。
一般的网络爬虫从互联网上采集网页,采集信息,这些网页信息是用来为索引搜索引擎提供支持的,它决定了整个引擎系统的内容是否丰富,信息是否及时,所以它的性能好坏直接影响到搜索引擎的有效性。
但是一般用于搜索引擎的爬虫的爬取行为需要遵守一定的规则,遵循一些命令或者文件的内容,比如标记为nofollow的链接,或者Robots协议(后面会有相关介绍)。
另一个技巧:搜索引擎工作流程
搜索引擎是通用爬虫最重要的应用领域,也是大家在使用网络功能时最大的助手。接下来介绍一下搜索引擎的工作流程,主要包括以下几个步骤。
1. 爬网
搜索引擎使用通用爬虫来抓取网页。基本工作流程与其他爬虫类似。一般步骤如下:
(1)先选择一部分*敏*感*词*网址,将这些网址放入待抓取的网址队列;
(2)取出要爬取的URL,解析DNS得到主机的IP,下载该URL对应的网页,存入下载的网页库中,将这些URL放入已爬取的URL队列.
(3)解析爬取的URL队列中的URL,分析其中的其他URL,将URL放入待爬取的URL队列,从而进入下一个循环。
那么,搜索引擎如何获取新的网站 URL?
(1)New网站 主动提交网址给搜索引擎:(如百度)。
(2)在其他网站上设置新的网站*敏*感*词*内)。
(3)搜索引擎和DNS解析服务商(如DNSPod等)合作,新的网站域名会被快速抓取。
2. 数据存储
搜索引擎通过爬虫爬到网页后,将数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。
在抓取页面时,搜索引擎蜘蛛也会做一定量的重复内容检测。一旦他们遇到大量抄袭、采集 或网站 上访问权重极低的复制内容,他们很可能会停止爬行。
3. 预处理
搜索引擎会对爬虫检索到的页面进行不同步骤的预处理,包括:
·提取文本
·中文分词