网站内容抓取(什么是抓取、收录网页抓取工具robots.txt文件介绍)

优采云 发布时间: 2021-09-28 01:15

  网站内容抓取(什么是抓取、收录网页抓取工具robots.txt文件介绍)

  网站建好了,怎么让搜索引擎收录网站?如果页面无法被搜索引擎收录搜索到,则说明该页面尚未展示,无法竞争排名获取SEO流量。本文将围绕爬取和收录亮点,从基本原理、常见问题和解决方案三个维度探讨搜索引擎优化。什么是爬虫,收录网页爬虫工具robots.txt文件介绍

  如何查看网站的收录状态

  设置网页不被搜索引擎索引

  搜索引擎的原理:搜索引擎将互联网上的网页内容存储在自己的服务器上。当用户搜索一个词时,搜索引擎会在自己的服务器上找到相关内容,即只保存在搜索引擎服务器上的网页。

  哪些网页可以保存在搜索引擎的服务器上?

  只有搜索引擎爬虫抓取到的网页才会保存在搜索引擎的服务器上。这个网页的爬虫是搜索引擎的蜘蛛。整个过程分为爬行和爬行。

  一、在爬什么,收录

  爬行:

  这就是搜索引擎爬虫爬取网站的过程。谷歌官方的解释是——“爬行”是指寻找新的或更新的网页并将其添加到谷歌的过程;(点此查看谷歌官网文档)

  收录(索引):

  它是搜索引擎将页面存储在其数据库中的结果,也称为索引。谷歌官方的解释是:谷歌的爬虫(“Googlebot”)已经访问了该页面,分析了其内容和含义,并将其存储在谷歌索引中。索引的网页可以显示在谷歌搜索结果中;(点此查看谷歌官网文档)

  抓取预算:

  它是搜索引擎蜘蛛在 网站 上爬取一个页面所花费的总时间的上限。一般小的网站(几百或几千页)其实不用担心,搜索引擎分配的爬取配额不够;大网站(百万或千万页)会考虑这个问题比较多。如果搜索引擎每天抓取几万个页面,网站的整个页面抓取可能需要几个月甚至一年的时间。通常,这些数据可以通过 Google Search Console 的后端获知。如下图所示,红框内的平均值为网站分配的爬取配额。

  

  

  通过一个例子让大家更好的理解爬取,收录和爬取配额:

  搜索引擎比作巨大的图书馆,网站比作书店,书店里的书比作网站页,蜘蛛爬虫比作图书馆买手。

  为丰富图书馆藏书,购书者会定期到书店查看是否有新书存货。翻书的过程可以理解为抓取;

  当买家认为这本书有价值时,他就会购买并带回图书馆采集。这本书合集就是我们所说的收录;

  每个买家的购书预算有限,他会优先购买高价值的书籍。这个预算就是我们理解的抢配额。

  二、网页抓取工具

  “爬虫”是一个通用术语,指的是任何程序(例如机器人或“蜘蛛”程序)通过跟随从一个网页到另一个网页的链接来自动发现和扫描 网站。Google 的主要抓取工具称为 Googlebot。

  三、robots.txt文件介绍

  robots.txt 文件指定了爬虫的爬取规则。

  robots.txt 文件必须位于主机的顶级目录中。

  正常情况下,robots.txt文件中会出现三种不同的爬取结果:

  robots.txt 用法示例:网站 目录下的所有文件都可以被所有搜索引擎蜘蛛访问 User-agent: *

  

  Disallow:

  禁止所有搜索引擎蜘蛛访问网站的任何部分

  User-agent: *

  Disallow: /

  禁止所有的搜索引擎蜘蛛访问网站的几个目录

  User-agent: *

  Disallow: /a/

  Disallow: /b/

  只允许某个搜索引擎蜘蛛访问

  User-agent: Googlebot

  Disallow:

屏蔽所有带参数的 URL

User-agent: *

Disallow: /*?

  一些文件应该被限制被蜘蛛抓取:

  一般网站中不需要蜘蛛爬取的文件包括:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片、背景图片等.

  robots.txt文件带来的风险及解决方法:

  Robots.txt 也带来了一定的风险:它还向攻击者指明了网站的目录结构和私有数据的位置。设置访问权限和密码保护您的私人内容,使攻击者无法进入。

  四、如何查看网站的收录情况

  ①通过站点命令。

  谷歌、百度、必应等主流搜索引擎均支持站点命令。通过站点命令,您可以在宏观层面查看网站 已经收录 的页面数量。这个值不准确,有一定的波动性,但有一定的参考价值。如下图,谷歌收录的网页网站数量约为165个。

  

  ②如果网站已经验证了Google Search Console,那么就可以得到网站 by Google收录的准确值,如下图红框所示,Google收录

  多个指令可以组合使用,这些指令不区分大小写。

  全部

  对索引或内容显示没有限制。此命令是默认值,因此在明确列出时无效。

  无索引

  不要在搜索结果中显示此页面。nofollow 不遵循此页面上的链接。

  没有任何

  相当于 noindex、nofollow。noarchive 不会在搜索结果中显示缓存的链接。

  没有片段

  不要在搜索结果中显示网页的文本摘要或视频预览。如果静态图像缩略图(如果有)能够提供更好的用户体验,则它们仍可能会显示。这适用于所有形式的搜索结果(例如 Google 网页搜索、Google 图片、Google 发现)。

  最大片段:[数量]

  只能使用 [number] 个字符作为此搜索结果的文本摘要。(请注意,该 URL 可能会在搜索结果页面上显示为多个搜索结果。)这不会影响图像或视频预览。这适用于所有形式的搜索结果(例如 Google 网页搜索、Google 图片、Google 发现、Google 助理)。但是,如果发布者单独授予了内容使用权,则此限制不适用。例如,如果发布商以页内结构化数据的形式提供内容或与 Google 签订了许可协议,则此设置不会阻止这些更具体的许可用途。如果未指定可解析的 [编号],则该命令将被忽略。

  特殊价值:

  例子:

  最大图像预览:[设置]

  设置搜索结果中该网页图片预览的最大尺寸。

  可接受的设置值:

  这适用于所有形式的搜索结果(例如 Google 网页搜索、Google 图片、Google 发现、Google 助理)。但是,如果发布者单独授予了内容使用权,则此限制不适用。例如,如果发布商以页内结构化数据的形式提供内容(例如 AMP 页面和 文章 的规范版本),或者与 Google 有许可协议,则此设置不会阻止这些更具体的许可使用 .

  如果发布商不希望 Google 在其 AMP 页面和 文章 的规范版本中显示在搜索结果页面或“探索”功能中时使用更大的缩略图,则应将 max-image-preview 的值指定为标准或无。

  例子:

  最大视频预览:[数量]

  本页视频的视频摘要在搜索结果中不得超过 [number] 秒。

  其他支持的值:

  这适用于所有形式的搜索结果(例如 Google 网页搜索、Google 图片、Google 视频、Google 发现、Google 助理)。如果未指定可解析的 [编号],则该命令将被忽略。

  例子:

  没有翻译

  不要在搜索结果中提供页面的翻译。

  无图像索引

  不要索引此页面上的图片。

  不可用之后:[日期/时间]

  在指定的日期/时间之后,网页将不会显示在搜索结果中。日期/时间必须以广泛使用的格式指定,包括但不限于RFC 822、RFC 850 和ISO 8601。如果未指定有效的[日期/时间],则该命令将被忽略。默认情况下,内容没有到期日期。

  例子:

  参考资料:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线