网站内容抓取(1.什么是抓取和收录，从基本概念及解决方法 )

优采云发布时间: 2021-12-01 22:13

　　网站内容抓取(1.什么是抓取和收录，从基本概念及解决方法

)

　　很多SEO从业者都有一个苦恼的问题：网站建了，为什么搜索引擎不是收录my网站？收录页面是网站争夺排名的最基本条件。没有收录，就没有展示，也就没有办法争夺排名获取SEO流量。

　　本文将围绕抓点和收录这两个点，从基本概念、常见问题和解决方案三个维度展开讨论，希望对大家有用。

　　1. 什么是爬取，收录，爬取配额？

　　首先简单介绍一下爬取，收录，三个术语爬取配额。

　　①爬行：

　　这就是搜索引擎爬虫爬取网站的过程。谷歌官方的解释是——“fetching”是指寻找新的或更新的网页并将其添加到谷歌的过程；（点此查看谷歌官网文档）

　　②收录（索引）：

　　它是搜索引擎将页面存储在其数据库中的结果，也称为索引。谷歌官方的解释是：谷歌的爬虫（“Googlebot”）已经访问了该页面，分析了其内容和含义，并将其存储在谷歌索引中。索引的网页可以显示在谷歌搜索结果中；（点此查看谷歌官网文档）

　　③ 抓取预算：

　　它是搜索引擎蜘蛛在网站上爬取一个页面所花费的总时间的上限。一般小的网站（几百或几千页）其实不用担心，搜索引擎分配的爬取配额不够；大网站（百万或千万页）会考虑这个问题比较多。如果搜索引擎每天抓取几万个页面，网站的整个页面抓取可能需要几个月甚至一年的时间。通常，这些数据可以通过 Google Search Console 的后端获知。如下图所示，红框内的平均值为网站分配的爬取配额。

　　通过一个例子让大家更好的理解爬取，收录和爬取配额：

　　搜索引擎比作巨大的图书馆，网站比作书店，书店里的书比作网站页，蜘蛛爬虫比作图书馆买手。

　　为了丰富图书馆的藏书量，购书者会定期到书店查看是否有新书存货。翻书的过程可以理解为抓取；

　　当买家认为这本书有价值时，他就会购买并带回图书馆采集。这本书合集就是我们所说的收录；

　　每个买家的购书预算有限，他会优先购买高价值的书籍。这个预算就是我们理解的抢配额。

　　2.如何查看网站的收录情况？

　　了解基本概念后，我们如何查看网站或者页面是否为收录？

　　①通过站点命令。谷歌、百度、必应等主流搜索引擎均支持站点命令。通过站点命令，您可以在宏观层面查看网站已经收录的页面数量。这个值不准确，有一定的波动性，但有一定的参考价值。如下图，网站Google收录的网页数量约为296个。

<p>②如果网站已经验证了Google Search Console，那么就可以得到网站 by Google收录的准确值，如下图红框所示，Google收录

0

2021-12-01

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取(1.什么是抓取和收录，从基本概念及解决方法 )

0 个评论

发起人

AI时代内容工厂

网站内容抓取(1.什么是抓取和收录，从基本概念及解决方法 )

0 个评论

发起人

相关问题