网站内部搜索引擎优化与外部搜索引擎优化的相同点(Google的本行优劣的重要指标分析及解决办法(上))

优采云 发布时间: 2021-12-19 05:07

  网站内部搜索引擎优化与外部搜索引擎优化的相同点(Google的本行优劣的重要指标分析及解决办法(上))

  二、页面分析

  

  搜索引擎会分析收录的每一页。

  首先,去除文本信息以外的HTML代码(当然,同时也会记录North认为有用的相关信息,比如文件类型、文件大小、最后修改时间、URL、抓取时间等) ,并建议文本完成信息步骤。

  搜索引擎获取文本信息后,会对文本进行分割,得到相关的关键词列表。例如,如果短信是“中华人民共和国”,搜索引擎的分词系统可能会将其分为三个关键词:“中国”、“人民”和“共和国”。经过这样的分词,得到每个页面对应的N个关键词的1对N关系。

  得到一个页面和多个关键词的关系后,就要建立页面和关键词之间的关联。因为每个页面都有URL信息,所以在存储每个关键字时,将其所属页面的URL信息存储在一起,从而形成一个关键字索引列表。

  搜索引擎收录有很多不同的页面,所以可能会出现文本信息分词后得到多个相同关键词的情况。为了优化这种情况,搜索引擎采用了关键字重组的方法,即将所有页面中的关键字组成一个集合,保证每个关键字的唯一性。这样就得到了一个关键词的反向索引列表,即每个关键词对应N个网页(URL)。完成这一步后,搜索引擎理论上就可以提供搜索服务了。当我们在搜索框中输入关键词时,搜索引擎就可以找到关键词对应的网页。

  经过以上步骤,搜索引擎的页面分析基本完成。其中,“分词”是衡量一个搜索引擎优劣的重要指标之一。搜索巨头谷歌刚进入中国大陆时,其提供的搜索服务并不尽如人意,尤其是分词。Google 的主线是用英语(更广泛地说,是拉丁语)进行搜索。英文单词之间有空格要打断,句末句号被打断,中文单词、短语和句子之间没有空格。. 这是阻碍谷歌搜索质量提升的重要障碍。例如,谷歌*敏*感*词*区前总裁李开复先生在自传中引用了这样一个例子。谷歌中国成立之初,他经常在搜索框中遇到“计算机”,并返回有关“电视”和“白金”的信息。的结果。难怪百度有一则广告嘲讽谷歌“我知道你不知道……”,并提出“百度更懂中文”的口号。

  三、页面排序

  得到关键字的倒排索引后,页面排序的问题随之而来。影响页面排名的几个因素是页面相关性、链接权重和用户行为。

  页面相关性是指页面内容与用户搜索的关键词的接近程度,主要由关键词匹配、关键词密度、关键词分布、关键词权重标签等几个因素决定。

  关键词匹配度是指页面P中的内容与用户提交的关键词K的匹配程度。主要由两个因素决定:页面P是否收录关键字K;以及页面P中收录的关键词数量K。为了计算关键词的匹配度,搜索引擎为每个页面分配一个关键词匹配值,该值由页面中出现的次数决定。但是,仅仅通过一个关键词的匹配程度来衡量一个页面的相关性是远远不够的,因为很容易造成操作搜索引擎排名的后果。比如一个title和body都填了很多“手机”两个词文章,关键字匹配就值很高的分数了。所以当我们输入“手机” 在搜索引擎中,页面会出现在最前面的位置,但显然我们的用户不想看到这种垃圾邮件。为了解决这个问题,引入了关键字密度的概念。

  关键词密度=关键词词频/网页总词汇量之比。关键字词频是指关键字出现的次数。不同的关键词密度对应不同的关键词密度值,搜索引擎根据关键词密度值来衡量某个关键词在页面上的词频是否合理。无论是关键词密度还是关键词频率,越大越好,但有一个门槛。当大于或小于该阈值时,页面相关性会降低(搜索引擎一般将最佳关键词密度设置在3%~8%)。也就是说,它是一个向下的抛物线形状。

  关键词分布是指关键词在页面上的位置。搜索引擎通过记录关键词在页面上出现的位置来计算页面的关键词分布值,从而得到关键词分布与页面相关度的关系。一般来说,搜索引擎会认为页面的上部比页面下部更重要,页面左侧的重要性高于页面右侧的重要性。即一个页面的重要性从高到低分布,分别是左上、右上、左中、右中、左下、右下。所以我们在做SEO的时候,应该尽量把最重要的关键词按这个顺序排列。

  如上所述,当搜索引擎从页面中提取文本(即去除HTML代码)时,会记录一些搜索引擎认为有用的信息,而关键词权重标签是一个非常重要的内容。在页面权重分配中,HTML标签根据标签的作用可以分为加权标签和非加权标签。常见的重量标签,如、、、等 常见的非重量标签,如

  ,

  等待。

  在SEO中,特别注意的两个标签是和。出现在这两个标签中的关键字将获得较高的标签权重分数。但是需要注意的是,这些标签中不能堆放关键词,否则搜索引擎会认为是“作弊”,从而降低页面在搜索引擎搜索结果中的排名。虽然不同的搜索引擎对标签的重视程度不同,但不言而喻,所有的搜索引擎都重视这两个标签。例如谷歌在页面排名算法中对外链因素的重视如下:1、外链质量网站2、网站内容主题相关性3、外部链接网站标签关键字4、链接文本5、外部链接的数量。

  因此,页面的相关性=关键词匹配值+关键词密度值+关键词分布值+标签权重值。

  网页中的链接可以简单地分为内部链接和外部链接。内部链接是指网站内部页面之间的链接关系,反映了网站内某个页面的内部识别程度。例如,网站 从主页到其他页面的链接。外部链接是指与本网站之外的页面的链接。外部链接分为InboundLink(来自外部网站的链接)和OutboundLink(从网站到其他网站的链接)。搜索引擎排名算法需要计算网站的InboundLinks数。Google 的 PageRank 算法就是基于这个想法。

  几乎所有的搜索引擎都把外链的质量放在第一位。因此,如何获取优质的外链成为SEO的重要条件。搜索引擎会对网页中的每个外部或内部链接分配一定的分数(即PR值,Google的工具栏有测试网页PR值的工具),整个网页的PR值就是这些链接的 PR 值的总和。

  用户行为也是影响搜索引擎搜索结果排名的重要因素。用户行为主要有两种类型:用户搜索和用户点击。搜索引擎会认为经常点击的网页的重要性会更高,这会在一定程度上影响排名结果。

  综上所述,页面排名=F(页面相关性)+F(链接权重)+F(用户行为)。

  四、关键字查询

  页面收录、页面分析、页面排序三步都在用户进行关键词查询之前完成。当用户在搜索框中输入要查询的关键词时,搜索引擎经过如下工作流程:

  

  例如,如果用户在搜索框中输入“移动学习”,搜索引擎会首先对输入的内容进行细分(例如,将其分为“移动”和“移动学习”两个关键词),然后根据在预先确定的关键字上。转到索引列表并找到出现此关键字的所有页面。由于搜索引擎预先计算了所有网页,对特定关键字的网页进行排序,因此可以快速按顺序显示网页。

  细心的用户可能会发现,当我们使用“百度”进行搜索时,可以看到所显示网页的“百度快照”(百度快照是百度搜索引擎抓取并放入数据库的网页。因为这些页面是“过期”页面,有可能当我们点击搜索结果时,搜索引擎会显示“此页面已过期”。)。打开某个搜索结果的“百度快照”,我们可以在收录页面上发现百度对正文内容的分词(使用不同的背景颜色),当然我们能看到的也只是在搜索中在框中输入的关键字的相关分词。下面是我搜索“移动学习”得到的百度快照的一些结果。

  

  虽然我上面提到了很多SEO方法,但是做SEO最好最实用的方法就是在网站的内容上下功夫。因为即使你“欺骗”搜索引擎,网站出现在最前面,但是打开你的网站后,人们发现内容根本不符合Ta的需求,然后转身离开——这有意义吗?!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线