网页爬虫抓取百度图片(西安网站多少钱,推荐阅读(组图))

优采云 发布时间: 2022-01-28 00:17

  网页爬虫抓取百度图片(西安网站多少钱,推荐阅读(组图))

  我所在的网站是一个很大的网站,百度收录3000万,百度爬取总次数约为每天500w次,百度收录单页率80%,看起来是个不错的数据,但是如果分析详细的日志文件,还是可以发现一些问题,

  1.*敏*感*词*网站列表页面通常会设置多个过滤条件(Facet Navigation),以方便用户找到需要的信息,但爬虫还不够智能,无法独立判断哪些条件可以组合和哪些条件 把它们结合起来是没有意义的。只要代码中有链接,就会被爬取,导致百度爬虫在列表过滤页面上耗费大量资源。分析1个月的数据发现百度30%的爬取量消耗在列表页上,但列表页带来的百度自然流量只占百度所有自然流量的2%,所以< @网站 也就是说,爬虫的输入输出很低。西安网站多少钱,推荐阅读>>

  2.重复爬取现象严重。我个人认为对于网站来说,爬虫只爬过一次(Distinct Crawl)的页面是最有价值的,因为对于内容质量好的页面,只要爬过一次, 收录 几率超过 80%。如果页面本身质量不好,就算爬了几十次,也不会是收录。继续分析我们的网站的数据,我们发现百度爬虫每天500万次的爬取中,有一半以上是同一页面的多次爬取。如果这些重复爬取能够转移到那些一次性爬取的页面上,对于网站来说无疑更有价值。网站制作公司西安,做网站

  如何解决这两个问题?

  让我们谈谈第一个。对于过滤页面消耗爬虫资源的问题,很多人建议使用nofollow标签告诉爬虫不要继续给这些页面分配权重,我们已经这样做了。然而,事实证明,百度爬虫对nofollow并不敏感。使用后,爬虫依然在疯狂爬行,同时也没有将权重从筛选页面转移到规范页面。

  无奈之下,我们不得不考虑使用 SEO 的大杀手:Robots 文件来禁止所有被过滤的页面。我们之前之所以没有使用robots禁止爬取,是担心如果爬虫被禁止爬取列表,是否会被禁止爬虫爬取列表。其他页面也爬不上去?毕竟列表过滤页还是会为单页贡献很多条目,但是基于我们的网站单页收录还不错的现状,我们决定试一试. 西安网站施工推荐读物>>>智能使用机器人避开蜘蛛黑洞-百度站长平台资讯,

  事实证明,效果非常明显。新版robots上线三天后,列表页爬虫的爬取量已经下降到15%;同时,之前令人担忧的问题也没有出现。大约在同一时间,单个页面的爬取量也增加了 20%,这算是达到了我们预期的目标:将浪费在列表页面上的爬虫资源转移到其他需要爬取的页面上。

  但是如何证明爬取的资源被转移到了需要爬取的页面上,这恰好是前面提到的第二个问题,我们看的是唯一爬取率(只爬取一次的页面数/总数爬取率)从 50% 提高到 74%,这意味着爬虫在读取 robots 文件后,对爬虫资源进行了更合理的分配,爬取的单页也更多。西安做网站推荐阅读>>>带你玩转机器人协议,新手必玩,

  总结:相对于其他方法,Robots文件可以在比较短的时间内优化百度爬虫的资源分配,但这必须基于网站本身结构好,传递内容。同时,最重要的是要通过对实际情况的日志分析,反复测试和调整以达到最佳效果。来自百度站长社区

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线