google搜索引擎优化(GoogleSEO第一步:理解搜索引擎的基本运行原理(Crawling))
优采云 发布时间: 2022-03-22 23:23google搜索引擎优化(GoogleSEO第一步:理解搜索引擎的基本运行原理(Crawling))
Google SEO 第一步:了解搜索引擎操作的基础知识
搜索引擎的工作原理也是SEO初学者需要了解的知识,可以帮助你对搜索引擎的工具有一个全面的了解。对于所有搜索引擎,它们的基本工作流程是相同的。
爬行
搜索引擎使用爬虫工具来爬取互联网上所有可以爬取的网页信息。有人可能会问什么是爬虫工具?互联网上的网站相互链接,网站内部链接称为内部链接,外部链接称为外部链接。这些链接就像一张大网,将几乎所有的网站连接在一起,从而形成了整个互联网。
搜索引擎的爬虫和蜘蛛一样,可以沿着网络一张一张的抓取网页。因此,我们称搜索引擎爬虫为蜘蛛。谷歌的爬虫叫谷歌蜘蛛,百度的爬虫叫百度蜘蛛,也有人叫蜘蛛机器人,都是同一个意思。
技巧一:检查网站是否可以爬取
蜘蛛对你的网站的第一步是检查你的网站是否处于可爬取状态,因为并不是所有的网站都愿意被搜索引擎爬取。
比如一个网站刚建好,没有实质性内容,不想马上公开,不想给搜索引擎留下不好的第一印象,可以选择不被蜘蛛爬行。这一步实现起来也很简单。它主要是在网站中使用一个叫robots.txt的协议文件来告诉蜘蛛是否可以抓取这个网站,甚至还进一步指定了哪些页面可以抓取,哪些页面不能抓取。
查看网站的robots文件也很简单。例如查看云点SEO网络的robots文件,可以在浏览器中输入如下地址进行访问:
通过访问查看的robots协议主要内容如下:
其中,User-agent 指定对象是哪个搜索引擎蜘蛛。如果面向所有搜索引擎,则使用*号;Disallow 表示不允许爬取的内容;Allow 表示允许爬取的内容;Sitemap 代表 网站xml 地图的位置。
以上内容告诉所有搜索引擎蜘蛛,除admin-ajax.php外,无法爬取/wp-admin/目录。另外,网站其他内容不指定,默认可以爬取。因此,如果 robots.txt 文件为空,则默认可以抓取所有内容。
除了robots规则,如果网页的代码中收录nofollow和noindex这两个meta标签,也会禁止搜索引擎抓取,收录这个网页。
提示 2:爬行路径(概念)
在获得网站的内容爬取权限后,蜘蛛会开始自己的爬取工作,采集网站中各个网页的信息。前面说过,蜘蛛是沿着链接爬的,所以你的网站里面的每个页面都需要通过链接来链接,这样方便蜘蛛爬爬,这些链接就是我们所说的内部链接。
内部链接的一般形式有:各种导航链接、文字链接、图片链接等。如果你的一个网页不能跳转到其他页面,无论是在站点地图中还是任何指向它的外部链接,那么这个页面蜘蛛就会除非你单独提交给搜索引擎,否则无法访问它,但是这个页面是没有意义的。
另外,蜘蛛的爬取工作并不一定从首页开始。可能是爬虫是通过其他网站的链接指向你的网站中的一个页面,也就是通过外部链接爬进来的。锁链来到你的网站。因此,外部链接也可以起到帮助网站被爬取的作用。
Tip 3:可抓取的内容(概念)
即使机器人规则不阻止抓取,搜索引擎的蜘蛛爬虫也无法抓取任何东西。与我们用肉眼查看网站的方式不同,搜索引擎查看的是网站爬取的源代码。
例如,在下面的示例页面上,我们看到的内容如下所示:
然而,搜索引擎看到的是蜘蛛爬取的网页代码,没有任何设计风格:
任何内容都以代码的形式呈现给搜索引擎:
因此,即使我们可以观察到某些东西,如果它没有很好地显示在代码中,搜索引擎也无法识别它。
在所有网站编程语言中,Html是最容易被搜索引擎识别和抓取的代码,这也是为什么网站在做SEO的时候必须要有静态的Html代码,动态的代码程序会导致搜索引擎无法识别爬行或爬行不完全。
看过很多外贸网站,首页是动态Flash*敏*感*词*,视觉效果确实不错,但是对于搜索引擎来说,你的首页基本是空白页,因为搜索引擎做不到了解您的 Flash 内容。永远不要将 Flash *敏*感*词*用作 网站 的首页,这对 SEO 非常不利。
提示 4:查看 Google 快照
如果某个页面已被 Google 和 收录 抓取,则该页面将具有 Google 快照。可以通过输入“cache:url”命令查看页面的 Google 快照,例如:
页面快照(供人看,快照不是纯代码,还应用了设计风格):
通过将网页与 Google Snapshots 进行比较,您可以了解网页内容是如何被抓取的。如果很多内容没有出现在 Google Snaps 中,那么是时候想办法调整它了。如果你想看到谷歌眼中的网页内容,可以点击上图中的“纯文本版”,也就是谷歌过滤掉大量代码后看到的网站内容。
收录规则(索引)
搜索引擎爬取网站后,会判断爬取的网页是否值得收录到自己的数据库中。要知道,互联网上的网站数不胜数,每个网站的网页数量都不一样。这是一个非常大量的数据。搜索引擎不可能对所有网页进行无差别的分析收录,即使是像谷歌这样拥有全球最大数据库容量的公司也做不到。
因此,搜索引擎会选择收录网页时,并不是所有网页都有机会成为收录。这也是我们在为客户做SEO的时候,总是强调网站不要抄袭内容,尽量让网页内容丰富的原因。确保 收录 的最佳方法是在您的网页上提供高质量的内容。只有成为收录,你才有机会参与排名。
技巧 5:如何快速检查 网站 的 Google收录 状态
确认你的网站是否被谷歌搜索过收录其实很简单,只要使用谷歌搜索命令site:即可。例如,在我们云点SEO网站的谷歌收录的情况下,在谷歌搜索中输入:site:,可以看到如下结果:
如图所示,一共找到了92条结果,也就是说,本站共有92个网页被谷歌了收录。注意:此查询数不能用作 网站 的页数,因为您的 网站 页可能不是 收录。翻到搜索结果的最后一页再看一遍,你会发现显示的结果数趋于减少:
这是因为最开始显示的收录的数量是谷歌索引库中已经出现过收录的页数,而点击最后一页显示的数量不仅是收录 展示的页面也是数量,也称为活跃页面,只有那些页面才有机会参与排名。
网页 收录 快或慢。如果开头不是收录,不代表一定有问题。我遇到了一些客户网站部分页面在网站上线,几个月后,被收录一个接一个展示。
同理,site:命令可以用来查询特定页面是否被Google搜索过收录,网页的URL后面可以跟:(不需要加http开头格式)。以本页为例:site: /seo-guide/
排行
排名是搜索引擎工作方式的最后一步。当接收到用户的查询时,搜索引擎会根据自己的复杂算法,匹配数据库中已经出现过收录的页面,然后根据得分排序,确定这些页面在搜索结果中的位置。
因此,搜索算法是搜索引擎的核心技术。如果有人能掌握谷歌的具体算法,那么他就可以控制谷歌的排名。显然,这不可能发生。算法是搜索引擎的核心机密,在不断的升级更新中不可能泄露或被测试。
所以,很多人打着“保证排名”的口号,只是在搞噱头。
提示 6:谷歌算法和排名因素(概念)
搜索引擎算法也并非没有踪迹。例如,谷歌曾多次公布其算法中收录的排名因素。国外一些SEO巨头也做了相关总结,整理了200多个谷歌排名因素。这些排名因素有些已经得到证实,有些只是猜测。
事实上,即使知道确切的排名因素,也无法完全控制排名,因为你不知道这些排名因素在 Google 的算法中占了多少。只能说,有利于排名的因素尽量做到,不利于排名的因素尽量避开。
如何做好,避免它需要很长的时间来积累经验。其中一些排名因素被认为很重要,例如:
谷歌排名的目的是为用户提供最能满足彼此需求的信息;因此,谷歌关键词排名不是一个恒定的结果,谷歌总是会将更好的页面排名更高。因此,即使您的 网站 排名在 Google 的第一页,这并不意味着 SEO 的终结。
后期仍需不断更新网站的内容,创造出更有价值的内容,而对于大量新生成的页面,也需要进行合理的优化,为它们提供更多的权重。 网站 ,以保持排名的稳定性,获得进一步提升的机会。
SEO是一个长期的项目。即使你的网站在谷歌首页上排名,也不代表你可以放过。要想稳定自己的排名,进一步提升,就必须创造更多有价值的内容,获得更多的谷歌权重,保持网站@网站的竞争力。