搜索引擎如何抓取网页(WebSpider根据一定规则扫描存在于互联网上的过程保证)

优采云发布时间: 2021-12-28 15:06

　　:// 搜索引擎使用程序机器人（也称为蜘蛛）。采集

器的功能是漫游互联网，发现和采集

信息。它采集

的信息类型多种多样，包括 HTML 页面、XML 文档、新闻组文章、FTP 文件、文字处理文件、多媒体信息等。Web Spider 会根据一定的规则扫描 Internet 上存在的网站。通过网页的链接地址查找网页：从网站的某个页面开始，阅读网页的内容，找到网页中的其他链接地址，然后通过这些链接地址找到下一个网页，以此类推。为了保证采集

到的信息是最新的，它会返回到它已经爬过的网页。在网页采集过程中，需要保证每个网页不被重复抓取。由于一个网页可能被多个网页链接，搜索引擎蜘蛛在爬取过程中可能会多次获取该网页的url，所以这个问题就解决了。有效的方法是使用两个数据表，unvisited_table 和visited_table。前者收录

尚未访问过的URL，后者记录已访问过的URL。系统首先将待采集的seed URL放入unvisited_table中，然后蜘蛛从中获取待采集网页的URL，将采集到的网页URL放入visited_table中，新解析的URL不添加到在visited_table url 中的unvisited_table。搜索引擎蜘蛛在爬取过程中可能会多次获取网页的url，所以这个问题就解决了。有效的方法是使用两个数据表，unvisited_table 和visited_table。前者收录

尚未访问过的URL，后者记录已访问过的URL。系统首先将待采集的seed URL放入unvisited_table中，然后蜘蛛从中获取待采集网页的URL，将采集到的网页URL放入visited_table中，新解析的URL不添加到在visited_table url 中的unvisited_table。后者记录访问过的 URL。系统首先将待采集的seed URL放入unvisited_table中，然后蜘蛛从中获取待采集网页的URL，将采集到的网页URL放入visited_table中，新解析的URL不添加到在visited_table url 中的unvisited_table。后者记录访问过的 URL。系统首先将待采集的seed URL放入unvisited_table中，然后蜘蛛从中获取待采集网页的URL，将采集到的网页URL放入visited_table中，新解析的URL不添加到在visited_table url 中的unvisited_table。

　　互联网上的信息太多，即使是强大的采集器

也无法将互联网上的所有信息都采集

起来。因此，采集

器使用一定的搜索策略来遍历互联网并下载文档。例如，一般采用以广度优先搜索策略和线性搜索策略为补充的搜索策略。1、广度优先采集策略广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后选择其中一个链接网页，继续抓取该网页中链接的所有网页。这是最常用的方法，因为这种方法可以让网络蜘蛛并行处理，提高爬行速度。2、深度优先采集

策略深度优先搜索沿着 HTML 文件上的超链接，直到不能再进一步，然后返回到上一个联系人的 HTML 文件，然后继续选择 HTML 文件中的其他超链接。当没有其他超链接可供选择时，搜索结束。深度优先搜索适用于遍历指定站点或一组深度嵌套的 HTML 文件，但对于*敏*感*词*搜索，由于深度 Web 结构，它可能永远不会出来。3、线性采集

策略线性搜索策略基本思想是从一个起始IP地址开始，以增量的方式搜索后续每个IP地址中的信息，而不管每个站点的HTML文件中的超链接地址指向其他网站。这种策略不适合*敏*感*词*搜索（主要原因是IP可能是动态的），但可以用于小规模的综合搜索。使用此策略的采集器

会发现，没有被引用的引文或其他 HTML 文件较少。引用的新 HTML 文件信息的来源。4、收录采集

策略有些网页可以通过用户提交来采集

，采集

者可以采集

提交的申请网站的网页信息，并将其添加到搜索引擎的索引数据库中。引用的新 HTML 文件信息的来源。4、收录采集

策略有些网页可以通过用户提交来采集

，采集

者可以采集

提交的申请网站的网页信息，并将其添加到搜索引擎的索引数据库中。引用的新 HTML 文件信息的来源。4、收录采集

策略有些网页可以通过用户提交来采集

，采集

者可以采集

提交的申请网站的网页信息，并将其添加到搜索引擎的索引数据库中。

0

2021-12-28

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(WebSpider根据一定规则扫描存在于互联网上的过程保证)

0 个评论

发起人