网页爬虫抓取百度图片(西安网站多少钱,推荐阅读(组图))

优采云发布时间: 2022-01-28 00:17

　　我所在的网站是一个很大的网站，百度收录3000万，百度爬取总次数约为每天500w次，百度收录单页率80%，看起来是个不错的数据，但是如果分析详细的日志文件，还是可以发现一些问题，

　　1.*敏*感*词*网站列表页面通常会设置多个过滤条件（Facet Navigation），以方便用户找到需要的信息，但爬虫还不够智能，无法独立判断哪些条件可以组合和哪些条件把它们结合起来是没有意义的。只要代码中有链接，就会被爬取，导致百度爬虫在列表过滤页面上耗费大量资源。分析1个月的数据发现百度30%的爬取量消耗在列表页上，但列表页带来的百度自然流量只占百度所有自然流量的2%，所以< @网站也就是说，爬虫的输入输出很低。西安网站多少钱，推荐阅读>>

　　2.重复爬取现象严重。我个人认为对于网站来说，爬虫只爬过一次（Distinct Crawl）的页面是最有价值的，因为对于内容质量好的页面，只要爬过一次，收录几率超过 80%。如果页面本身质量不好，就算爬了几十次，也不会是收录。继续分析我们的网站的数据，我们发现百度爬虫每天500万次的爬取中，有一半以上是同一页面的多次爬取。如果这些重复爬取能够转移到那些一次性爬取的页面上，对于网站来说无疑更有价值。网站制作公司西安，做网站

　　如何解决这两个问题？

　　让我们谈谈第一个。对于过滤页面消耗爬虫资源的问题，很多人建议使用nofollow标签告诉爬虫不要继续给这些页面分配权重，我们已经这样做了。然而，事实证明，百度爬虫对nofollow并不敏感。使用后，爬虫依然在疯狂爬行，同时也没有将权重从筛选页面转移到规范页面。

　　无奈之下，我们不得不考虑使用 SEO 的大杀手：Robots 文件来禁止所有被过滤的页面。我们之前之所以没有使用robots禁止爬取，是担心如果爬虫被禁止爬取列表，是否会被禁止爬虫爬取列表。其他页面也爬不上去？毕竟列表过滤页还是会为单页贡献很多条目，但是基于我们的网站单页收录还不错的现状，我们决定试一试. 西安网站施工推荐读物>>>智能使用机器人避开蜘蛛黑洞-百度站长平台资讯，

　　事实证明，效果非常明显。新版robots上线三天后，列表页爬虫的爬取量已经下降到15%；同时，之前令人担忧的问题也没有出现。大约在同一时间，单个页面的爬取量也增加了 20%，这算是达到了我们预期的目标：将浪费在列表页面上的爬虫资源转移到其他需要爬取的页面上。

　　但是如何证明爬取的资源被转移到了需要爬取的页面上，这恰好是前面提到的第二个问题，我们看的是唯一爬取率（只爬取一次的页面数/总数爬取率）从 50% 提高到 74%，这意味着爬虫在读取 robots 文件后，对爬虫资源进行了更合理的分配，爬取的单页也更多。西安做网站推荐阅读>>>带你玩转机器人协议，新手必玩，

　　总结：相对于其他方法，Robots文件可以在比较短的时间内优化百度爬虫的资源分配，但这必须基于网站本身结构好，传递内容。同时，最重要的是要通过对实际情况的日志分析，反复测试和调整以达到最佳效果。来自百度站长社区

0

2022-01-28

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(西安网站多少钱,推荐阅读(组图))

0 个评论

发起人

AI时代内容工厂

网页爬虫抓取百度图片(西安网站多少钱,推荐阅读(组图))

0 个评论

发起人

相关问题