谷歌网页视频抓取工具(几次一个的演讲内容以及要点概括(一)(图))

优采云 发布时间: 2021-10-07 18:13

  谷歌网页视频抓取工具(几次一个的演讲内容以及要点概括(一)(图))

  原文:优化您的抓取和索引

  发表于:2009 年 8 月 9 日,星期日,晚上 10:40

  许多关于网站的结构、爬取和收录,甚至排名的问题都可以归结为一个核心问题,那就是:搜索引擎爬取你的网站有多容易?我们在最近的几个事件中讨论了这个话题。下面你将看到我们关于这个问题的演讲内容和主要观点的总结。

  网络世界是巨大的;每时每刻都在产生新的内容。谷歌自己的资源是有限的。当面对几乎无穷无尽的网络内容时,Googlebot 只能查找和抓取一定比例的内容。然后,我们只能索引我们抓取的部分内容。

  URL就像网站和搜索引擎爬虫之间的桥梁:为了能够抓取你的内容网站,爬虫需要能够找到并跨越这些桥梁(即找到并抓取你的URLs )。如果你的 URL 很复杂或者很长,爬虫就不得不花时间反复跟踪这些 URL;如果你的 URL 是常规的并且直接指向你的独特内容,那么爬虫可以专注于理解你的内容,而不是仅仅抓取空网页或被不同的 URL 引导,最终抓取的是相同的重复内容。

  在上面的幻灯片中,您可以看到一些我们应该避免的反例——这些都是现实中存在的 URL 的示例(尽管出于隐私原因,它们的名称已被替换),这些示例包括被黑的 URL 和编码、伪装成一部分的冗余参数URL 路径、无限爬取空间等,您还可以找到一些建议,帮助您理顺这些 URL 迷宫,帮助爬虫更快更好地找到您的内容,包括:

  URL中用户相关参数的去除URL中那些不会影响网页内容的参数——例如sessionID或排序参数——可以从URL中去除并被cookie记录下来。通过将此信息添加到 cookie,然后 301 重定向到“干净”的 URL,您可以保留原创内容并减少指向相同内容的 URL 数量。

  控制无限空间。你的网站上有日历吗,上面的链接指向无数过去和未来的日期(每个链接地址都是唯一的二)?你的网页地址是不是在&page=3563的参数后加了200码还可以返回,即使根本没有那么多页面?如果是这样的话,你的网站上就会出现所谓的“无限空间”,这种情况会浪费捕获 占用机器人的带宽还有你的网站。如何控制“无限空间”,参考这里的一些技巧。

  防止 Google 抓取工具抓取它们无法处理的网页。通过使用robots.txt文件,您可以防止您的登录页面、*敏*感*词*、购物车以及其他爬虫无法处理的页面被抓取。(爬行动物以吝啬和害羞着称,所以一般不会“添加商品到购物车”或“联系我们”)。这样,你可以让爬虫花更多的时间在你的网站上爬取他们能处理的东西。

  一人一票。一个URL,一个内容在理想的世界中,URL和内容是一一对应的:每个URL对应一个唯一的内容,每一个内容只能通过一个唯一的URL访问。越接近这种理想情况,您的 网站 就越容易被捕获和 收录。如果您的内容管理系统或当前的网站 建立难以实施,您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线