百度网页关键字抓取(如何判断是否是蜘蛛对式网页的链接结构的原因？)

优采云发布时间: 2022-02-06 09:09

　　搜索引擎蜘蛛系统的目标是发现和抓取互联网上所有有价值的网页。百度官方也明确表示，蜘蛛只能抓取尽可能多的有价值资源，并保持系统中页面与实际环境的一致性。对网站的体验施加压力，也就是说蜘蛛不会爬取所有网站的所有页面。蜘蛛的爬取策略有很多，可以尽可能快速完整的找到资源链接，提高爬取能力。高效的。只有这样，蜘蛛才能尽量满足大部分网站，这也是我们需要做好网站的链接结构的原因。接下来在马海翔博客平台分享搜索引擎蜘蛛对翻页网页的爬取机制。

　　1、为什么需要这种爬取机制？

　　目前大部分网站都采用翻页的形式，有序的分发网站资源。当添加新的文章时，旧资源被推回翻页系列。对于蜘蛛来说，这种特定类型的索引页是一个有效的爬取渠道，但是蜘蛛爬取的频率和网站文章更新频率不一样，文章链接很可能是被封锁。推入翻页栏，这样蜘蛛就不可能每天从第一个翻页栏爬到第80页，再把文章和文章爬到数据库里对比，这太浪费了，无法搜索。引擎蜘蛛的时间也浪费了你网站的收录时间，

　　2、如何判断是否是有序翻页？

　　判断文章是否按发布时间排序是这类页面的必要条件，下面会讲到。那么如何判断资源是否按发布时间排序呢？在某些页面中，每个文章链接后面都有相应的发布时间。通过文章链接对应的时间集，判断时间集是从大到小排序还是从小到大排序。如果是，那么说明网页中的资源是按发布时间排列的，反之亦然。即使不写发布时间，蜘蛛也可以根据文章本身的实际发布时间来做出判断。

　　3、抓取机制的原理

　　对于这种翻页页面，蜘蛛主要记录每次爬取网页时发现的文章链接，然后将本次发现的文章链接与历史中发现的链接进行比较。如果相交，则说明爬取已经找到所有新的文章，可以停止后面的翻页栏的爬取；否则，说明爬取没有找到所有新的文章，需要继续爬到下一页甚至后面几页才能找到所有新的文章。

　　以马海翔的博客为例。比如，网站翻页目录新增了29篇文章，也就是说上一篇文章是第30篇，蜘蛛一次抓取了10篇。文章文章链接，所以蜘蛛第一次抓取了10篇文章，和上次没有相交，所以继续抓取，第二次抓取了10篇文章，也就是一共抓取了10篇文章20篇文章被抓取，或者与上次没有交集，然后继续爬取。这次抓到第30条，也就是和上一条有交集，说明蜘蛛从上一次到这次抓到网站29条都更新了文章。

　　马海翔博客评论：

　　目前的百度蜘蛛会对网页的类型、翻页栏在网页中的位置、翻页栏对应的链接、列表是否按时间排序等做出相应的判断，并根据以实际情况为准，但蜘蛛毕竟不能做到100%的识别准确率，所以马海翔建议站长尽量不要使用JS，更不要在翻页的时候使用FALSH，同时更新文章频繁，配合蜘蛛爬行，可以大大提高蜘蛛识别的准确率，从而提高蜘蛛在你网站中的爬行效率。

　　再次提醒大家，本文只是对蜘蛛抓取机制的概述。这并不意味着蜘蛛有抓取机制。在实际情况下，很多机制是同时进行的。

0

2022-02-06

百度网页关键字抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度网页关键字抓取(如何判断是否是蜘蛛对式网页的链接结构的原因？)

0 个评论

发起人