互联网搜索引擎组成部分爬取(Crawling)返回结果

优采云 发布时间: 2021-07-14 20:18

  互联网搜索引擎组成部分爬取(Crawling)返回结果

  SEO(搜索引擎优化)

  网站发布上线后,希望通过适当的优化和调整,让搜索引擎更好的“理解”。当用户使用搜索引擎进行搜索时,网站的内容可以更合适的暴露给用户。

  部分互联网搜索引擎抓取(Crawling)索引(Indexing)返回结果(Serving Results)PageRank

  在PageRank之前,排序主要依赖于搜索关键字和目标页面的匹配。这种排序方式弊端明显,特别是对于擅长堆砌关键词“欺诈”的页面,很容易跳转到搜索结果首页。但是这样的页面对用户来说价值很小。

  PageRank 算法的本质是利用网页之间的相关性来确定网页影响力的权重。而这种关系就是网页之间的超链接。换句话说,如果一个页面被其他各种页面引用,尤其是被“重要”网站和页面引用,则意味着该页*敏*感*词*有更高的权重。

  在实际搜索中,需要平衡两个因素:一是信誉,也就是上面提到的影响,不会因为用户单次搜索的关键词不同而改变;另一个是It is Proximity,即接近程度,根据用户搜索的关键字的匹配程度确定返回网页。

  SEO相关技术白帽黑帽

  当我们明确上述目的,遵循搜索引擎规则,通过适当有效的技术手段达到SEO效果时,这种方法被称为白帽法。相应地,如果是通过欺骗或欺骗,则称为黑帽方法。

  搜索引擎在评估上面提到的网站的影响力时,有很多不同的“排名信号”,它们指的是会影响返回页面排名的“信号”。它们共同决定了一个页面的影响,例如:

  网站 正常运行时间。例如,如果某个站点在爬行时总是遇到4xx、5xx 等错误,则显然是影响力的负权重。 网站的时代,网页内容的新鲜度,好的原创内容永远是最好的优化方式。 网站无论使用HTTPS还是HTTP,显然HTTPS更好。 HTML 代码的质量,是否有错误。网站上访问的网页深度。

  黑帽法:

  站内优化和站外优化

  站内优化实际上是指您设法实现SEO的网站的内部优化。比如我们之前反复提到的关键词,

  站外优化与站内优化相反。优化是在目标站点之外进行的。比如众所周知的“友情链接”就是一种提供外链的站外优化方式。

  roberts.txt

  “roberts.txt”是网站根目录下可以直接访问的文本文件。它是网络爬虫的协议。告诉它这个网站下哪些内容可以爬,哪些内容不能爬。值得注意的是,roberts.txt 不是标准,也不是规范,而是一种“惯例”,几乎所有搜索引擎都会遵守。

  网站Map

  网站Map 可以清晰直接地告诉搜索引擎网站中哪些“重要”页面(无论是否链接),以及它们的更新习惯,包括上次更新的时间。不同页面对整个网站的频率和重要性是多少。

  对于网站map,除了被动等待爬虫爬取外,搜索引擎服务往往会提供另一种上报网站map变化的方式,就是让网站administrators主动提交变化。与爬虫爬取相比,这种方式类似于我们第一章讲的pull和push的区别。这种方法对于网站administrators 来说比较麻烦,但显然可以让搜索引擎更及时的获知和收录最新的数据。

  统计分析

  在进行 SEO 更改和调整后,我们需要一些方法来跟踪和评估效果。和谷歌分析和百度统计一样,它提供了这样的功能。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线