教程:SEO新手入门系列2022(三):搜索引擎工作原理
优采云 发布时间: 2022-09-23 19:08教程:SEO新手入门系列2022(三):搜索引擎工作原理
通过《SEO初学者系列2022(二):SEO 101》)文章已经简单介绍了什么是SEO,以及搜索引擎,本文文章将详细介绍SEO的工作原理一个搜索引擎,一个搜索引擎的工作顺序大致是:抓取网页(Crawing)、建立索引(Indexing)、排名展示(Ranking)。
正如上一篇文章文章 中提到的,搜索引擎是一个问答机器。他们挖掘、理解和整理任何可以在互联网上找到的信息,然后以相关的方式整理它们,然后将它们返回给用户。但是,为了能够将你的网站展示给用户,最重要的是你的网站可以被搜索引擎找到,否则就没有SEPR(搜索引擎结果页面)你的网站 信息。
搜索引擎是如何工作的?
正如SEO小野一开始所说,搜索引擎需要完成三个主要任务才能向用户提供网站信息:
当然,技术实现非常复杂。作为一个新的 SEO 人,您可能不需要深入研究这些问题。SEO Xiao也大学毕业的时候,他的毕业设计是一个搜索引擎。当然,他当时使用了第三方。对于词库的索引,我们大部分时间只需要配置规则即可。我会写一些更深入的内容文章来分享。
搜索引擎爬取(Crawing)
如果一个搜索引擎想向用户展示相关的内容,第一步就是发送它的小兄弟,搜索引擎爬虫(蜘蛛),他们会不断地在互联网上爬取新的内容,或者更新数据库中的旧内容,那里是各种形式的内容,可能是网页、PDF文件、MP3音频文件等,但都是通过URL找到这些内容的。
在搜索引擎开始的时候,会有一些*敏*感*词*网址,这些网址是一些优质的链接地址,蜘蛛会不断的向下爬取这些地址。在这个过程中,新发现的链接将作为新一轮爬取任务的*敏*感*词*URL,直到没有新的链接可以爬取。
搜索引擎索引(Indexing)
索引是一个非常复杂的过程。这个过程涉及到更多的计算机内容,包括算法、地理环境、社会学研究等因素。搜索引擎会根据很多参数来控制这些内容的分类。,但最重要的一点是这些内容的相关性。相关性越高,被归入同一类别的可能性就越大。索引的建立是为后期快速呈现给用户做准备,同时也为排名Base提供数据。
搜索引擎排名(Ranking)
用户在搜索引擎输入框中输入他的关键词,搜索引擎会以惊人的效率在他庞大的索引数据库中找到相关内容,并根据内容的相关性和其他一些参数对内容进行排序,这个过程是搜索引擎排名,排在最前面的内容,在搜索引擎眼中,是与用户的问题更相关的答案。
如果我们不希望搜索引擎向用户显示某些内容,可以这样做,但大多数情况下我们不会这样做。搜索引擎优化的目的是让用户看到我们,让搜索引擎优先展示我们希望用户看到的东西。
搜索引擎能找到你吗?
如前所述,如果你想让你的网站出现在SERP中,前提是让网站被搜索引擎蜘蛛抓取和索引。如果你已经有网站,你可以使用site命令查看你的网站状态是否为收录,也以SEO Xiao为例,在谷歌搜索框输入site: ,您可以看到类似以下的结果:
可以看到,SEO Xiao也有135个页面被google了收录,这个结果经常变,可以看到一个一般的数据,不是特别准确,有很多页面没有显示,也可以用一些 关键词 搜索。如果想看到更准确的结果,可以用Google Search Console在收录功能中查看,相当于我们百度站长平台,但是SEO小我个人认为百度的作用站长要大得多,所以SEO一般只看GSC的数据,很少看百度站长平台的数据。以后会写几篇文章来介绍。
如果使用site命令找不到网站的收录,可能是以下原因:
有时我们过于关注如何让搜索引擎抓取内容,却忽略了如何防止搜索引擎抓取一些内容,比如一些重复的页面、一些搜索参数,还有,比如公司*敏*感*词*、留言等.这些内容意义不大,当收录不花时间爬的时候,robots.txt文件就进来了,这个SEO教程就先到这里了。
干货教程:谷歌seo入门指南第六章:搜索引擎优化技术
网址来源
爬虫必须从某个地方开始。通常,他们会创建一个他们通过页面找到的所有 URL 的列表。另一种机制是通过用户创建的站点地图或具有页面列表的各种系统来查找更多 URL。
爬取队列
所有需要爬取或重新爬取的 URL 都会被优先添加到爬取队列中。这基本上是 Google 想要抓取的 URL 的有序列表。
爬虫
一种抓取页面内容的机制。
处理
这些是呈现页面的规范处理机制,就像浏览器加载页面一样,并处理页面以获取更多要抓取的 URL,我们稍后将讨论这些机制。
渲染
渲染是像浏览器一样加载页面,加载 JavaScript 和 CSS 文件。这样做是为了让 Google 可以看到大多数用户会看到的内容。
索引
用于存储 Google 向用户显示的页面。
抓取控制
有几种方法可以控制在您的 网站 上抓取的内容。
Robots.txt
Robots.txt 文件告诉搜索引擎他们可以访问和不能访问哪些页面。
请注意,如果您链接到这些页面,Google 可能无法访问这些页面,但它们仍可能会被编入索引。这可能会造成混淆,但如果您想防止您的网页被索引,请查看本指南和流程图。
抓取频率
您可以在 robots.txt 中使用 crawl-delay 指令,该指令被许多爬虫支持,您可以设置它们爬取页面的频率。不幸的是,谷歌不支持它。对于 Google,您需要按照此处所述在 Google Search Console 中更改抓取速度。 .
访问限制
如果您希望某些用户可以访问该页面,而不是搜索引擎,那么您可能需要以下三件事之一:
这种类型的设置最适合内部网络、仅限会员的内容、测试或开发中的网站。它允许一组用户访问该页面,但搜索引擎将无法访问它们并且不会索引这些页面。
如何查看抓取活动
特别是对于 Google,查看他们正在抓取的内容的最简单方法是使用 Google Search Console 抓取统计报告,该报告可为您提供有关抓取您的更多信息网站。
如果您想查看 网站 上的所有抓取活动,您将需要访问服务器日志和工具以更好地分析数据。如果您的主机有像 cPanel 这样的控制面板,您应该能够通过 Awstats 和 Webalizer 等工具访问原创日志。
抓取调整
每个 网站 都有不同的抓取预算,该预算是 Google 抓取 网站 的频率和允许您的 网站 抓取多少的组合。更受欢迎且更改频繁的页面将被更频繁地抓取,而看起来不受欢迎或没有很多链接的页面将被更少地抓取。
如果爬虫在爬行网站时受到压力,它们通常会减慢甚至停止爬行,直到情况好转。
页面被抓取后,它们被渲染并发送到索引。索引是存储的搜索结果列表。
我们来谈谈索引。
第 3 章了解索引
在本章中,我们将讨论如何确保您的页面被索引并检查它们是如何被索引的。
爬虫说明
crawler 标签是一个 HTML 片段,它告诉搜索引擎如何抓取或索引页面。放在网页部分如下:
归一化
当同一页面有多个版本时,Google 会选择其中一个版本存储在其索引中。此过程称为规范化,被选为规范的 URL 将是 Google 在搜索结果中显示的 URL。他们使用许多不同的信号来选择规范的 URL,包括:
查看 Google 如何为您的网页编制索引的最简单方法是使用 Google Search Console 中的网址检查工具。它将显示 Google 选择的规范 URL。
第 4 章技术 SEO 快速获胜要素
对于 SEO 来说,最难的事情之一就是确定优先级。有很多最佳实践,但有些变化会对您的排名和流量产生比其他变化更大的影响。以下是我建议优先考虑的一些元素。
检查索引
确保您希望人们看到的页面已被 Google 编入索引。前两章介绍了抓取和索引,这就是它的用途。
您可以在站点审核 (网站Diagnostics) 中查看可见性报告,以查找无法编入索引的页面及其原因。此报告在 Ahrefs 网站管理员工具中免费提供。
恢复丢失的链接
网站 它的 URL 在运行过程中会发生变化。在许多情况下,这些旧 URL 收录来自其他 网站 的链接。如果它们未重定向到当前页面,则这些链接将丢失并且不再计入您的页面。丢失的链接可以通过重定向快速恢复。这也是获取链接的快速技巧。
Site Explorer-> -> Pages -> Best by Links -> 添加“404 not found” HTTP 响应过滤器。我通常按“引用域”排序。
Site Explorer (网站Analysis) -> Your Domain Name -> Pages -> Best by Links (按反向链接数排序) -> 添加“404 not found” HTTP 响应过滤器。我通常按引用域排序。
这是检查网站的结果:
查看 中的第一个 URL,我发现这曾经是关于母亲节页面的。通过将此页面重定向到当前版本,您可以从 59 个不同的 网站 以及许多其他页面中回收 225 个链接。
您需要使用 301 重定向将旧 URL 重定向到当前页面以恢复减肥。
添加内部链接
内部链接是从您的 网站 上的一个页面到您的 网站 上的另一个页面的链接。它们帮助搜索引擎找到您的页面并帮助他们更好地排名。我们有一份名为“现场审核中的链接机会”(网站诊断)的报告,可帮助您快速找到这些机会。
添加架构标签
架构标签是帮助搜索引擎更好地理解您的内容并提供许*敏*感*词*以帮助您的 网站 在搜索结果中脱颖而出的代码。 Google 的搜索库可以显示网站各种符合您条件的搜索功能和架构。
第 5 章附加技术要素
我们将在本章中讨论的元素都值得关注,但与上一章中的速赢元素相比,它们可能需要更多的工作并且回报更少。这并不意味着您不需要这样做,只是为了帮助您了解如何确定工作的优先级。
页面体验信号
这些是次要的排名因素,但为了用户的利益,您仍然希望看到它们。它们涵盖了影响用户体验 (UX) 的 网站 方面。
核心页面指标
核心页面指标是速度指标,是 Google 用来衡量用户体验的页面体验信号的一部分。这些指标是:最大内容绘制速度(LCP)、累积布局移位速度(CLS)和首次输入延迟(FID)。