搜索引擎如何抓取网页(SEO有助于和重要性意味着什么?优化的主要领域之一)

优采云 发布时间: 2021-12-05 06:07

  搜索引擎如何抓取网页(SEO有助于和重要性意味着什么?优化的主要领域之一)

  指数

  索引是将有关网页的信息添加到搜索引擎索引的行为。索引是一组网页 - 一个数据库,其中收录有关搜索引擎蜘蛛抓取的页面的信息。

  索引目录和组织:

  ·每个页面内容的性质和主题相关性的详细数据;

  · 每个页面链接的所有页面的地图;

  ·任何链接的可点击(锚)文本;

  · 关于链接的其他信息,例如它们是否是广告、它们在页面上的位置、链接上下文的其他方面以及接收链接的页面的含义……等等。

  索引是当用户在搜索引擎中输入查询时,百度等搜索引擎的数据库在决定从索引中显示哪些页面以及以什么顺序显示之前存储和检索数据,搜索引擎将应用算法来帮助排列这些页面.

  秩

  为了向搜索引擎用户提供搜索结果,搜索引擎必须执行一些关键步骤:

  1.说明用户查询的意图;

  2.在与查询相关的索引中识别网页;

  3. 按相关性和重要性排序并返回这些页面;

  这是搜索引擎优化的主要领域之一,有效的 SEO 有助于影响这些网页对相关查询的相关性和重要性。

  那么,相关性和重要性是什么意思?

  相关性:网页内容与搜索者意图的匹配程度(意图是搜索者完成搜索的尝试,这对搜索引擎(或SEO)来说是一个不小的任务)。

  重要性:他们在别处引用的越多,页面被认为越重要(将这些引用视为对该页面的信任投票)。传统上,这是从其他网站链接到页面的形式,但其他因素也可能起作用。

  为了完成分配相关性和重要性的任务,搜索引擎具有复杂的算法,旨在考虑数百种信号,以帮助确定任何给定网页的相关性和重要性。

  这些算法通常会随着搜索引擎努力改进其向用户提供最佳结果的方法而发生变化。

  虽然我们可能永远不会知道百度等搜索引擎在其算法中使用的信号的完整列表(这是一个严密保密的秘密,并且有充分的理由防止一些*敏*感*词*使用它来对系统进行排名),但搜索引擎已经通过与在线出版社分享知识,揭示了一些基本知识,我们可以利用这些知识来创建持久的 SEO 策略。

  搜索引擎如何评估内容?

  作为排名过程的一部分,搜索引擎需要了解它搜索的每个网页内容的性质。事实上,百度非常重视网页内容作为排名信号。

  2016 年,百度证实了我们许多人已经相信的内容:内容是页面排名的前三大因素之一。

  为了理解网页的内容,搜索引擎会分析网页上出现的词组,然后构建一个数据地图,称为“语义地图”,有助于定义网页上的概念之间的关系页。

  您可能想知道网页上的“内容”究竟是什么。唯一页面内容由页面标题和正文内容组成。在这里,导航链接通常不在这个等式中,这并不是说它们不重要,但在这种情况下,它们不被视为页面上的唯一内容。

  搜索引擎可以在网页上“查看”什么样的内容?

  为了评估内容,搜索引擎会在网页上查找数据以对其进行解释。由于搜索引擎是软件程序,它们“看到”网页的方式与我们看到的完全不同。

  搜索引擎爬虫以 DOM(如我们上面定义的)的形式查看网页。作为一个人,如果你想看看搜索引擎看到了什么,你可以做的一件事就是查看页面的源代码。为此,您可以在浏览器中右键单击并查看源代码。

  

  这个和DOM的区别在于我们还没有看到Javascript执行的效果,但是作为一个人,我们还是可以用它来了解很多页面的内容。页面上的body内容通常可以在源码中找到,如下在HTML代码中上面页面上的一些独特内容的例子:

  除了网页上的独特内容,搜索引擎爬虫还会在网页中添加其他元素,以帮助搜索引擎了解网页内容。

  这包括以下内容:

  · 网页元数据,包括HTML代码中的标题标签和元描述标签,这些标签作为搜索结果中页面的标题和描述,应该由网站的所有者维护。

  ·网页图片的alt属性。这些是 网站 的所有者应该保留的描述,以描述图像的内容。由于搜索引擎无法“看到”图像,这有助于他们更好地理解网页上的内容,并且对于使用屏幕阅读器描述网页内容的残障人士也发挥着重要作用。

  我们已经提到了图片以及alt属性如何帮助爬虫理解这些图片的内容。搜索引擎看不到的其他元素包括:

  Flash文件:百度曾经说过可以从Adobe Flash文件中提取一些信息,但是很难,因为Flash是一种图片媒体。设计师在使用Flash设计网站时,一般不会插入。对于解释文件内容的文字,很多设计者都使用HTML5来替代对搜索引擎友好的Adobe Flash。

  音频和视频:就像图像一样,搜索引擎很难在没有上下文的情况下理解音频或视频。例如,搜索引擎可以从 Mp3 文件中的 ID3 标签中提取有限的数据。这也是为什么许多出版商将音频和视频与文字稿一起放在网页上以帮助搜索引擎提供更多背景的原因之一。

  程序中收录的内容:这包括AJAX和其他形式的JavaScript方法来动态加载网页上的内容。

  iframe:iframe标签通常用于将您自己网站上的其他内容嵌入到当前网页中,或者将其他网站中的内容嵌入到您的网页中。百度可能不会将此内容视为您网页的一部分,尤其是当它来自第三方网站 时。从历史上看,百度忽略了 iframe 中的内容,但这个一般规则可能会有一些例外。

  综上所述

  面对SEO,搜索引擎似乎很简单:在搜索框中输入一个查询,然后噗!显示您的结果。然而,这种即时呈现是由一组复杂的幕后流程支持的,这有助于识别与用户搜索最相关的数据,因此搜索引擎可以找到食谱、研究产品或其他无法描述的奇怪事物。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线