搜索引擎如何抓取网页(搜索引擎的工作原理是什么?的原理有哪些?)
优采云 发布时间: 2022-03-08 07:07搜索引擎如何抓取网页(搜索引擎的工作原理是什么?的原理有哪些?)
搜索引擎是一种响应机制,用于发现、理解和组织 Internet 内容,以便为用户搜索的问题提供最相关的结果,因此有必要了解搜索引擎的工作原理。为了出现在搜索结果中,您的内容首先需要对搜索引擎可见,然后是 收录,如果您的页面未编入索引,它将永远不会出现在 SERP(搜索引擎结果页面)中。
一、搜索引擎的工作原理
搜索引擎通过三个主要功能工作:
1、爬行:在互联网上搜索内容,查看蜘蛛找到的每个 URL 的代码/内容。
2、索引:存储和组织爬取过程中发现的内容。一旦页面在索引中,它就会在用户搜索时出现在查询结果中。
3、排名:提供最能回答搜索者查询的内容片段,这意味着结果从最相关到最不相关进行排名。
什么是搜索引擎抓取?
抓取是搜索引擎发送一组机器人(称为爬虫或蜘蛛)以查找新内容和内容更新的发现过程。内容可能会有所不同——它可以是网页、图像、视频、PDF 等——但无论格式如何,内容都是通过链接发现的。
Googlebot 首先获取几个页面,然后按照这些页面上的链接查找新 URL。通过沿着这个链接路径跳跃,爬虫能够找到新内容并将其添加到一个名为 Caffeine 的索引系统中,这是一个收录已发现 URL 的巨大数据库,当用户在该 URL 上搜索内容时会产生巨大的影响。很好的比赛。
什么是搜索引擎索引?
搜索引擎处理并存储他们在索引中找到的信息,该索引是一个巨大的数据库,收录已找到的所有内容,足以为搜索者提供服务。
什么是搜索引擎排名?
当有人执行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对该内容进行排名以解决搜索者的查询。这种按相关性对搜索结果进行排序称为排名,一般情况下,您可以假设 网站 排名越高,搜索引擎认为 网站 的相关性越高。你也可以阻止网站的部分或全部内容被搜索引擎抓取,虽然这可能是有原因的,但是如果你想让搜索者找到你的内容,你首先要确保爬虫可以访问它并且可以被索引。
二、如何查看网站在搜索引擎中的索引
正如刚才提到的搜索引擎是如何工作的,确保您的 网站 被抓取和索引是出现在 SERP 中的先决条件。如果您已经有 网站,请先查看索引中的页数。检查索引页面的一种方法是“site:”,转到 Google 并在搜索栏中输入上述命令,这将在指定站点的索引中返回 Google 的结果:
Google 显示的结果数量(见上图中的“关于 XX 个结果”)并不准确,但它确实可以让您很好地了解网站哪些页面被索引以及它们在搜索结果中的显示方式.
要获得更准确的结果,请使用 Google Search Console 中的索引覆盖率报告。如果您目前没有,可以注册一个免费的 Google Search Console 帐户。使用此工具,您可以为您的 网站 提交站点地图,监控实际添加到 Google 索引中的提交页面的数量等等。
如果网站没有出现在搜索结果中,可能有以下几个原因:
1) 您的 网站 是全新的,尚未被抓取。
2) 您的 网站 未链接到任何外部 网站。
3) 您的 网站 导航使爬虫很难有效地爬取它。
4) 您的网站有阻止搜索引擎 收录 页面的爬虫阻止代码。
5) 您的 网站 因严重的质量问题而受到 Google 的处罚。
三、如何让搜索引擎抓取你的网站
如果您使用 Google Search Console 或“site:”,发现索引中缺少一些重要的页面,并且一些不重要的页面被错误地编入索引,您可以使用一些优化来更好地引导 Googlebot 抓取您的网页内容。例如,通过GSC的URL检查将重要页面提交给Google进行优先索引,并通过robots.txt告诉搜索引擎哪些页面不希望Googlebot找到。包括内容稀疏的旧 URL、重复 URL(例如电子商务的排序和过滤参数)、特殊促销代码页等内容。
Robots.txt文件位于网站的根目录下(如/robots.txt),文件中写有搜索引擎要爬取和不爬取的文件路径。如果 Googlebot 找不到 网站 的 robots.txt 文件,它将继续抓取 网站;如果它找到文件,它通常会遵循规则并继续爬取网站。
您还可以通过提交 XML 站点地图让爬虫发现并索引您的页面。确保 Google 找到您的所有 网站 页面的最简单方法之一是创建符合 Google 标准的站点地图文件并通过 Google Search Console 提交。它可以帮助爬虫跟踪所有重要页面的路径并为其编制索引。
四、与排名相关的一些数据指标
在 Google 排名中,参与度指标是指代表搜索者如何通过搜索结果与您的 网站 互动的数据。这包括以下内容:
1) 点击(来自搜索的访问)
2) 页面停留时间(访问者在离开前停留在页面上的时间)
3) 跳出率(仅查看一页的用户百分比)
4) Pogo-sticking(点击搜索结果,然后快速返回 SERP 以选择另一个结果)
谷歌前搜索质量主管 Udi Manber 表示:排名本身受点击数据的影响,如果我们发现,对于特定查询,80% 的人点击#2,只有 10% 的人点击#1,虽然我们会 事实证明,#2 可能是人们想要的,所以我们会提高它。
各种测试已经证实,谷歌将根据搜索者的参与度调整 SERP 顺序:
1) 在 Rand Fishkin 之前的测试中有大约 200 人点击来自 SERP 的 URL 之后,第 7 位的结果上升到了第 1 位。有趣的是,排名提升似乎与用户访问的位置无关链接。在众多参与者所在的美国地区,排名位置飙升,而谷歌加拿大、澳大利亚和其他地区的页面仍然很低。
2) Larry Kim 通过测试一些热门页面及其平均停留时间比较表明,Google 的算法会降低停留时间较短的页面的排名位置。
在页面排名方面,参与度指标就像一个事实检查器,不会改变页面的客观质量。链接和内容等客观因素首先对页面进行排名,然后参与度指标可以帮助 Google 在用户体验方面进行排名调整。如果搜索者的行为表明他们更喜欢其他页面,那么您的排名可能会下降。
结论:本地化结果现在受到事实数据的影响,这种交互性是搜索者互动和响应本地企业的方式,由于谷歌希望为搜索者提供最好和最相关的本地企业,他们使用实时参与度指标来确定质量和相关性非常有意义。但我们不必了解谷歌算法的来龙去脉(这仍然是一个谜!),只需基本了解搜索引擎的工作原理(它们如何被抓取、索引、存储和排名)。