谷歌网页视频抓取工具(几次一个的演讲内容以及要点概括(一)(图))

优采云发布时间: 2021-10-07 18:13

　　原文：优化您的抓取和索引

　　发表于：2009 年 8 月 9 日，星期日，晚上 10:40

　　许多关于网站的结构、爬取和收录，甚至排名的问题都可以归结为一个核心问题，那就是：搜索引擎爬取你的网站有多容易？我们在最近的几个事件中讨论了这个话题。下面你将看到我们关于这个问题的演讲内容和主要观点的总结。

　　网络世界是巨大的；每时每刻都在产生新的内容。谷歌自己的资源是有限的。当面对几乎无穷无尽的网络内容时，Googlebot 只能查找和抓取一定比例的内容。然后，我们只能索引我们抓取的部分内容。

　　URL就像网站和搜索引擎爬虫之间的桥梁：为了能够抓取你的内容网站，爬虫需要能够找到并跨越这些桥梁（即找到并抓取你的URLs ）。如果你的 URL 很复杂或者很长，爬虫就不得不花时间反复跟踪这些 URL；如果你的 URL 是常规的并且直接指向你的独特内容，那么爬虫可以专注于理解你的内容，而不是仅仅抓取空网页或被不同的 URL 引导，最终抓取的是相同的重复内容。

　　在上面的幻灯片中，您可以看到一些我们应该避免的反例——这些都是现实中存在的 URL 的示例（尽管出于隐私原因，它们的名称已被替换），这些示例包括被黑的 URL 和编码、伪装成一部分的冗余参数URL 路径、无限爬取空间等，您还可以找到一些建议，帮助您理顺这些 URL 迷宫，帮助爬虫更快更好地找到您的内容，包括：

　　URL中用户相关参数的去除URL中那些不会影响网页内容的参数——例如sessionID或排序参数——可以从URL中去除并被cookie记录下来。通过将此信息添加到 cookie，然后 301 重定向到“干净”的 URL，您可以保留原创内容并减少指向相同内容的 URL 数量。

　　控制无限空间。你的网站上有日历吗，上面的链接指向无数过去和未来的日期（每个链接地址都是唯一的二）？你的网页地址是不是在&page=3563的参数后加了200码还可以返回，即使根本没有那么多页面？如果是这样的话，你的网站上就会出现所谓的“无限空间”，这种情况会浪费捕获占用机器人的带宽还有你的网站。如何控制“无限空间”，参考这里的一些技巧。

　　防止 Google 抓取工具抓取它们无法处理的网页。通过使用robots.txt文件，您可以防止您的登录页面、*敏*感*词*、购物车以及其他爬虫无法处理的页面被抓取。（爬行动物以吝啬和害羞着称，所以一般不会“添加商品到购物车”或“联系我们”）。这样，你可以让爬虫花更多的时间在你的网站上爬取他们能处理的东西。

　　一人一票。一个URL，一个内容在理想的世界中，URL和内容是一一对应的：每个URL对应一个唯一的内容，每一个内容只能通过一个唯一的URL访问。越接近这种理想情况，您的网站就越容易被捕获和收录。如果您的内容管理系统或当前的网站建立难以实施，您可以尝试使用 rel=canonical 元素来设置您要用于指示特定内容的 URL。

0

2021-10-07

谷歌网页视频抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

谷歌网页视频抓取工具(几次一个的演讲内容以及要点概括(一)(图))

0 个评论

发起人

AI时代内容工厂

谷歌网页视频抓取工具(几次一个的演讲内容以及要点概括(一)(图))

0 个评论

发起人

相关问题