php抓取网页指定内容( 请参阅GoogleDevelopers文档了解如何正确配置这些资源的网页?)
优采云 发布时间: 2022-03-07 05:13php抓取网页指定内容(
请参阅GoogleDevelopers文档了解如何正确配置这些资源的网页?)
robots.txt 文件位于您的 网站 的根目录中,并指示您不希望搜索引擎爬虫访问您的 网站 上的哪些内容。本文档使用该标准,该标准是一个协议,其中收录一小组命令以遵循 网站 部分和特定类型的网络爬虫(例如移动爬虫与桌面爬虫),指示可访问的 网站 内容。
robots.txt的作用是什么?非图像文件
对于非图片文件(即网页),您应该只使用 robots.txt 来控制抓取流量,因为您通常不希望 Google 的抓取工具使您的服务器超载或浪费您的抓取预算在您的 < @网站。如果您不希望自己的网页出现在 Google 搜索结果中,请不要使用 robots.txt 来隐藏您的网页。这是因为其他页面可能指向您的页面,导致我们为您的页面编制索引并导致 robots.txt 文件无用。如果您想从搜索结果中屏蔽您的网页,请使用其他方法,例如密码保护或 .
图像文件
robots.txt 可以阻止图片文件出现在 Google 搜索结果中(尽管它不会阻止其他网页或用户链接到您的图片)。
资源
如果您认为在加载页面时跳过不重要的图像、脚本或样式文件等资源不会造成太大伤害,您可以使用 robots.txt 阻止这些资源文件。但是,如果缺少这些资源会使 Google 的抓取工具更难以分析网页,我们建议您不要阻止这些资源,否则 Google 将无法正确分析依赖它们的网页。
了解 robots.txt 的局限性
在创建 robots.txt 之前,您应该了解这种 URL 拦截方法的潜在风险。有时,您可能需要考虑其他机制来确保搜索引擎无法在网络上找到您的 URL。
注意:组合多个爬取和索引指令可能会导致某些指令与其他指令发生冲突。请参阅 Google Developers 文档,了解如何正确配置这些指令。