网站内容抓取(1.什么是抓取和收录,从基本概念及解决方法 )
优采云 发布时间: 2021-12-01 22:13网站内容抓取(1.什么是抓取和收录,从基本概念及解决方法
)
很多SEO从业者都有一个苦恼的问题:网站建了,为什么搜索引擎不是收录my网站?收录页面是网站争夺排名的最基本条件。没有收录,就没有展示,也就没有办法争夺排名获取SEO流量。
本文将围绕抓点和收录这两个点,从基本概念、常见问题和解决方案三个维度展开讨论,希望对大家有用。
1. 什么是爬取,收录,爬取配额?
首先简单介绍一下爬取,收录,三个术语爬取配额。
①爬行:
这就是搜索引擎爬虫爬取网站的过程。谷歌官方的解释是——“fetching”是指寻找新的或更新的网页并将其添加到谷歌的过程;(点此查看谷歌官网文档)
②收录(索引):
它是搜索引擎将页面存储在其数据库中的结果,也称为索引。谷歌官方的解释是:谷歌的爬虫(“Googlebot”)已经访问了该页面,分析了其内容和含义,并将其存储在谷歌索引中。索引的网页可以显示在谷歌搜索结果中;(点此查看谷歌官网文档)
③ 抓取预算:
它是搜索引擎蜘蛛在 网站 上爬取一个页面所花费的总时间的上限。一般小的网站(几百或几千页)其实不用担心,搜索引擎分配的爬取配额不够;大网站(百万或千万页)会考虑这个问题比较多。如果搜索引擎每天抓取几万个页面,网站的整个页面抓取可能需要几个月甚至一年的时间。通常,这些数据可以通过 Google Search Console 的后端获知。如下图所示,红框内的平均值为网站分配的爬取配额。
通过一个例子让大家更好的理解爬取,收录和爬取配额:
搜索引擎比作巨大的图书馆,网站比作书店,书店里的书比作网站页,蜘蛛爬虫比作图书馆买手。
为了丰富图书馆的藏书量,购书者会定期到书店查看是否有新书存货。翻书的过程可以理解为抓取;
当买家认为这本书有价值时,他就会购买并带回图书馆采集。这本书合集就是我们所说的收录;
每个买家的购书预算有限,他会优先购买高价值的书籍。这个预算就是我们理解的抢配额。
2.如何查看网站的收录情况?
了解基本概念后,我们如何查看网站或者页面是否为收录?
①通过站点命令。谷歌、百度、必应等主流搜索引擎均支持站点命令。通过站点命令,您可以在宏观层面查看网站 已经收录 的页面数量。这个值不准确,有一定的波动性,但有一定的参考价值。如下图,网站Google收录的网页数量约为296个。
<p>②如果网站已经验证了Google Search Console,那么就可以得到网站 by Google收录的准确值,如下图红框所示,Google收录