网站内容抓取(什么是抓取、收录网页抓取工具robots.txt文件介绍)

优采云发布时间: 2021-09-28 01:15

　　网站建好了，怎么让搜索引擎收录网站？如果页面无法被搜索引擎收录搜索到，则说明该页面尚未展示，无法竞争排名获取SEO流量。本文将围绕爬取和收录亮点，从基本原理、常见问题和解决方案三个维度探讨搜索引擎优化。什么是爬虫，收录网页爬虫工具robots.txt文件介绍

　　如何查看网站的收录状态

　　设置网页不被搜索引擎索引

　　搜索引擎的原理：搜索引擎将互联网上的网页内容存储在自己的服务器上。当用户搜索一个词时，搜索引擎会在自己的服务器上找到相关内容，即只保存在搜索引擎服务器上的网页。

　　哪些网页可以保存在搜索引擎的服务器上？

　　只有搜索引擎爬虫抓取到的网页才会保存在搜索引擎的服务器上。这个网页的爬虫是搜索引擎的蜘蛛。整个过程分为爬行和爬行。

　　一、在爬什么，收录

　　爬行：

　　这就是搜索引擎爬虫爬取网站的过程。谷歌官方的解释是——“爬行”是指寻找新的或更新的网页并将其添加到谷歌的过程；（点此查看谷歌官网文档）

　　收录（索引）：

　　它是搜索引擎将页面存储在其数据库中的结果，也称为索引。谷歌官方的解释是：谷歌的爬虫（“Googlebot”）已经访问了该页面，分析了其内容和含义，并将其存储在谷歌索引中。索引的网页可以显示在谷歌搜索结果中；（点此查看谷歌官网文档）

　　抓取预算：

　　它是搜索引擎蜘蛛在网站上爬取一个页面所花费的总时间的上限。一般小的网站（几百或几千页）其实不用担心，搜索引擎分配的爬取配额不够；大网站（百万或千万页）会考虑这个问题比较多。如果搜索引擎每天抓取几万个页面，网站的整个页面抓取可能需要几个月甚至一年的时间。通常，这些数据可以通过 Google Search Console 的后端获知。如下图所示，红框内的平均值为网站分配的爬取配额。

　　通过一个例子让大家更好的理解爬取，收录和爬取配额：

　　搜索引擎比作巨大的图书馆，网站比作书店，书店里的书比作网站页，蜘蛛爬虫比作图书馆买手。

　　为丰富图书馆藏书，购书者会定期到书店查看是否有新书存货。翻书的过程可以理解为抓取；

　　当买家认为这本书有价值时，他就会购买并带回图书馆采集。这本书合集就是我们所说的收录；

　　每个买家的购书预算有限，他会优先购买高价值的书籍。这个预算就是我们理解的抢配额。

　　二、网页抓取工具

　　“爬虫”是一个通用术语，指的是任何程序（例如机器人或“蜘蛛”程序）通过跟随从一个网页到另一个网页的链接来自动发现和扫描网站。Google 的主要抓取工具称为 Googlebot。

　　三、robots.txt文件介绍

　　robots.txt 文件指定了爬虫的爬取规则。

　　robots.txt 文件必须位于主机的顶级目录中。

　　正常情况下，robots.txt文件中会出现三种不同的爬取结果：

　　robots.txt 用法示例：网站目录下的所有文件都可以被所有搜索引擎蜘蛛访问 User-agent: *

　　Disallow:

　　禁止所有搜索引擎蜘蛛访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　禁止所有的搜索引擎蜘蛛访问网站的几个目录

　　User-agent: *

　　Disallow: /a/

　　Disallow: /b/

　　只允许某个搜索引擎蜘蛛访问

　　User-agent: Googlebot

　　Disallow:

屏蔽所有带参数的 URL

User-agent: *

Disallow: /*?

　　一些文件应该被限制被蜘蛛抓取：

　　一般网站中不需要蜘蛛爬取的文件包括：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片、背景图片等.

　　robots.txt文件带来的风险及解决方法：

　　Robots.txt 也带来了一定的风险：它还向攻击者指明了网站的目录结构和私有数据的位置。设置访问权限和密码保护您的私人内容，使攻击者无法进入。

　　四、如何查看网站的收录情况

　　①通过站点命令。

　　谷歌、百度、必应等主流搜索引擎均支持站点命令。通过站点命令，您可以在宏观层面查看网站已经收录的页面数量。这个值不准确，有一定的波动性，但有一定的参考价值。如下图，谷歌收录的网页网站数量约为165个。

　　②如果网站已经验证了Google Search Console，那么就可以得到网站 by Google收录的准确值，如下图红框所示，Google收录

　　多个指令可以组合使用，这些指令不区分大小写。

　　全部

　　对索引或内容显示没有限制。此命令是默认值，因此在明确列出时无效。

　　无索引

　　不要在搜索结果中显示此页面。nofollow 不遵循此页面上的链接。

　　没有任何

　　相当于 noindex、nofollow。noarchive 不会在搜索结果中显示缓存的链接。

　　没有片段

　　不要在搜索结果中显示网页的文本摘要或视频预览。如果静态图像缩略图（如果有）能够提供更好的用户体验，则它们仍可能会显示。这适用于所有形式的搜索结果（例如 Google 网页搜索、Google 图片、Google 发现）。

　　最大片段：[数量]

　　只能使用 [number] 个字符作为此搜索结果的文本摘要。（请注意，该 URL 可能会在搜索结果页面上显示为多个搜索结果。）这不会影响图像或视频预览。这适用于所有形式的搜索结果（例如 Google 网页搜索、Google 图片、Google 发现、Google 助理）。但是，如果发布者单独授予了内容使用权，则此限制不适用。例如，如果发布商以页内结构化数据的形式提供内容或与 Google 签订了许可协议，则此设置不会阻止这些更具体的许可用途。如果未指定可解析的 [编号]，则该命令将被忽略。

　　特殊价值：

　　例子：

　　最大图像预览：[设置]

　　设置搜索结果中该网页图片预览的最大尺寸。

　　可接受的设置值：

　　这适用于所有形式的搜索结果（例如 Google 网页搜索、Google 图片、Google 发现、Google 助理）。但是，如果发布者单独授予了内容使用权，则此限制不适用。例如，如果发布商以页内结构化数据的形式提供内容（例如 AMP 页面和文章的规范版本），或者与 Google 有许可协议，则此设置不会阻止这些更具体的许可使用 .

　　如果发布商不希望 Google 在其 AMP 页面和文章的规范版本中显示在搜索结果页面或“探索”功能中时使用更大的缩略图，则应将 max-image-preview 的值指定为标准或无。

　　例子：

　　最大视频预览：[数量]

　　本页视频的视频摘要在搜索结果中不得超过 [number] 秒。

　　其他支持的值：

　　这适用于所有形式的搜索结果（例如 Google 网页搜索、Google 图片、Google 视频、Google 发现、Google 助理）。如果未指定可解析的 [编号]，则该命令将被忽略。

　　例子：

　　没有翻译

　　不要在搜索结果中提供页面的翻译。

　　无图像索引

　　不要索引此页面上的图片。

　　不可用之后：[日期/时间]

　　在指定的日期/时间之后，网页将不会显示在搜索结果中。日期/时间必须以广泛使用的格式指定，包括但不限于RFC 822、RFC 850 和ISO 8601。如果未指定有效的[日期/时间]，则该命令将被忽略。默认情况下，内容没有到期日期。

　　例子：

　　参考资料：

0

2021-09-28

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取(什么是抓取、收录网页抓取工具robots.txt文件介绍)

0 个评论

发起人

AI时代内容工厂

网站内容抓取(什么是抓取、收录网页抓取工具robots.txt文件介绍)

0 个评论

发起人

相关问题