php抓取网页指定内容( 请参阅GoogleDevelopers文档了解如何正确配置这些资源的网页?)

优采云 发布时间: 2022-03-07 05:13

  php抓取网页指定内容(

请参阅GoogleDevelopers文档了解如何正确配置这些资源的网页?)

  

  robots.txt 文件位于您的 网站 的根目录中,并指示您不希望搜索引擎爬虫访问您的 网站 上的哪些内容。本文档使用该标准,该标准是一个协议,其中收录一小组命令以遵循 网站 部分和特定类型的网络爬虫(例如移动爬虫与桌面爬虫),指示可访问的 网站 内容。

  robots.txt的作用是什么?非图像文件

  对于非图片文件(即网页),您应该只使用 robots.txt 来控制抓取流量,因为您通常不希望 Google 的抓取工具使您的服务器超载或浪费您的抓取预算在您的 < @网站。如果您不希望自己的网页出现在 Google 搜索结果中,请不要使用 robots.txt 来隐藏您的网页。这是因为其他页面可能指向您的页面,导致我们为您的页面编制索引并导致 robots.txt 文件无用。如果您想从搜索结果中屏蔽您的网页,请使用其他方法,例如密码保护或 .

  图像文件

  robots.txt 可以阻止图片文件出现在 Google 搜索结果中(尽管它不会阻止其他网页或用户链接到您的图片)。

  资源

  如果您认为在加载页面时跳过不重要的图像、脚本或样式文件等资源不会造成太大伤害,您可以使用 robots.txt 阻止这些资源文件。但是,如果缺少这些资源会使 Google 的抓取工具更难以分析网页,我们建议您不要阻止这些资源,否则 Google 将无法正确分析依赖它们的网页。

  了解 robots.txt 的局限性

  在创建 robots.txt 之前,您应该了解这种 URL 拦截方法的潜在风险。有时,您可能需要考虑其他机制来确保搜索引擎无法在网络上找到您的 URL。

  注意:组合多个爬取和索引指令可能会导致某些指令与其他指令发生冲突。请参阅 Google Developers 文档,了解如何正确配置这些指令。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线