网站搜索引擎优化策略(爬虫不是有深度优先和广度优先两种抓取策略吗?)
优采云 发布时间: 2021-10-27 04:09网站搜索引擎优化策略(爬虫不是有深度优先和广度优先两种抓取策略吗?)
不爬了?很多初学者可能会想。爬虫不是有深度优先和广度优先两种爬取策略吗?你怎么会有另一个非重复的爬行策略?其实这几天我不止一次听到有人说要在不同的页面添加同一个页面的链接,以保证收录。我真的要保证吗?不只是抓到没抓到收录吧?也延伸了今天的文章,不再重复爬取策略,说明爬虫在一定时间内爬取有这样的规则。当然,还有很多其他的规则和策略,后面会讲到。例如优先抓取策略、网页重访策略等。
回到正题,如果不重复抓包,需要判断是否重复。那么你需要记住之前的爬行行为,我们举一个简单的例子。你在我的QQ群(9060800))看到我发了一个网址链接,然后你先看到我发的链接,然后在浏览器中点击打开看看具体内容。这相当于爬虫看到后爬行。如何记录?让我们看看下面的一张图片:
如上图,假设这是一个网页上的所有链接,当爬虫爬取这个页面的链接时,就会全部找到。当然,爬行(理解为查找链接)和爬行(理解为爬行网页)是同时进行的。一个找到了就告诉另一个,然后前面的继续爬,后面的继续抓。爬取后,保存并标记。如上图所示,我们发现第二条记录和第六条记录是重复的。所以当爬虫抓取第二篇文章的时候,爬到第六篇,发现这个信息已经被抓取了,就不会再抓取了。爬虫不是尽可能多地抓取东西吗?为什么我们需要判断重复?
其实我们可以考虑一下。互联网上有多少页网站?赵延刚从来没有验证过,不过这个量级应该是惊人的。搜索引擎本身的爬取和爬取需要执行一段代码或一个函数。执行一次意味着消耗少量资源。如果爬行的重复量达到数百亿,爬虫会做多少无用功?搜索引擎的成本是多少?这个成本就是金钱,降低成本就是减少支出。当然,不重复爬行不仅体现在这里,而且这是最明显的。你需要知道的是热门推荐、相关文章、随机推荐、最新文章的重复程度 类似于内容详细信息页面?所有页面都一样吗?如果都一样,可以在不影响网站本身的用户体验的情况下进行适当的调整。毕竟网站是给用户的。搜索引擎只是一个重要的流量入口,更重要的营销方式!