seo教程 搜索引擎优化入门与进阶第三版(PermanentLinkto除去HTML代码后,剩下的用于排名的文字)

优采云 发布时间: 2022-01-18 12:01

  seo教程 搜索引擎优化入门与进阶第三版(PermanentLinkto除去HTML代码后,剩下的用于排名的文字)

  今天是愚人节

  =" /seoblog/2010/04/01/fools-day/" title="永久链接到

  去掉 HTML 代码后,剩下的用于排名的文字就是这一行:

  今天是愚人节

  注意:除了可见文本,搜索引擎还会提取一些收录文本信息的特殊代码,如Meta标签中的文本、图片替代文本、Flash文件替代文本、链接锚文本等。

  2.去停用词

  无论是英文还是中文,都会出现一些在页面内容中出现频率高但对内容没有影响的词,比如“的”、“地”、“de”、“ah”等辅助词, “ha”、“ya”等感叹词、“therefore”、“with”、“but”等副词或介词。这些词被称为停用词,因为它们对页面的主要含义几乎没有影响。英语中常见的停用词有 the、a、an、to、of 等。

  搜索引擎会在对页面进行索引之前去除这些停用词,使索引数据的主题更加突出,减少不必要的计算量。

  3.去除噪音

  大多数页面上也有一些内容对页面主题没有贡献,比如版权声明文字、导航栏、广告等。以常见的博客导航为例,文章分类、日历等. 将出现在几乎每个博客页面上。

  历史档案等导航内容,但这些页面本身与“类别”和“历史”这两个词无关。用户搜索“历史”、“类别”并返回博客文章只是因为这些词出现在页面上是没有意义的,完全无关紧要的。因此,这些块都是噪音,只能对页面的主题起到分散作用。

  搜索引擎需要在不使用嘈杂内容的情况下识别和消除这种噪音并进行排名。去噪的基本方法是根据HTML标签将页面分成块,区分页眉、导航、文本、页脚、广告等区域。网站 上重复出现的块通常是噪音。页面去噪后,剩下的就是页面的主要内容。4. 去重

  搜索引擎还需要对页面进行重复数据删除。

  同一个文章经常在不同的网站和同一个网站的不同URL上重复出现,搜索引擎不喜欢这种重复的内容。用户搜索时,如果在前两页看到来自不同网站的同一篇文章文章,用户体验太差了,尽管都是内容相关的。搜索引擎希望只返回一个相同的文章,所以在索引之前需要识别并删除重复的内容。此过程称为“重复数据删除”。去重的基本方法是计算页面特征的指纹关键词,也就是从页面的主要内容中选择最有代表性的部分关键词(往往是出现频率最高的关键词) ,然后计算这些 < @关键词s。这里的关键词的选择是在分词、去停用词、降噪之后。实验表明,通常选择10个特征关键词可以达到比较高的计算精度,选择更多的词对去重精度的提升贡献不大。

  典型的指纹计算方法如MD5算法(Information Digest Algorithm Fifth Edition)。这类指纹算法的特点

  是的,输入(特征关键词)的任何微小变化都会导致计算出的指纹出现很大的差距。了解了搜索引擎的去重算法后,SEO人员应该知道,简单地加上“de”、“地”、“de”,改变段落的顺序,所谓伪原创,是逃不过去重的。搜索引擎。算法,因为这样的操作不能改变文章关键词的特性。此外,搜索引擎的重复数据删除算法可能不仅在页面级别,而且在段落级别。混用不同的文章,互换段落的顺序,不能让转载、抄袭变成原创。

  5. 远期指数

  远期指数也可以简称为指数。

  经过文本提取、分词、去噪、去重后,搜索引擎得到的是唯一的、能反映页面主要内容的基于词的内容。接下来,搜索引擎索引程序可以提取关键词,按照分词程序对单词进行划分,将页面转换为关键词的集合,并将每个关键词的内容记录在这一页。出现频率、出现次数、格式(如在标题标签、粗体、H标签、锚文本等)、位置(如页面第一段等)。这样,每一页就可以记录为一组关键词,其中还记录了每个关键词的词频、格式、位置等权重信息。

  搜索引擎索引程序将页面和关键词 存储到索引数据库中以形成词汇结构。索引词汇表的简化形式如表所示。

  表 2-1 简化的索引词汇结构

  

  6.倒排索引

  前向索引还不能直接用于排名。假设用户搜索关键词2,如果只有前向索引,排序程序需要扫描索引库中的所有文件,找到收录关键词2的文件,然后执行相关性计算。这个计算量不能满足实时返回排名结果的要求,像Brilliant Network这样的网站已经做得很好了。

  因此,搜索引擎会将正向索引数据库重构为倒排索引,并将文件对应到关键词的映射转换为关键词到文件的映射,如表所示。

  在倒排索引中,关键词是主键,每一个关键词都对应着这个关键词出现的一系列文件。这样,当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,可以立即找到所有收录这个关键词的文件。

  

  7.链接关系计算

  链接关系计算也是预处理的重要组成部分。页面之间的链接流信息现在收录在所有主要的搜索引擎排名因素中。搜索引擎爬取页面内容后,必须提前计算:页面上的哪些链接指向了其他哪些页面,每个页面上有哪些传入链接,链接使用了哪些锚文本。这些复杂的链接指向关系形成了 网站 和页面的链接权重。

  谷歌PR值是这种链接关系最重要的体现之一。其他搜索引擎做类似的计算,虽然它们不被称为 PR。

  由于页面和链接的数量巨大,而且互联网上的链接关系不断更新,计算链接关系和PR需要很长时间。关于PR和链接分析,后面有专门的章节。

  8.特殊文件处理

  除了 HTML 文件,搜索引擎通常可以抓取和索引各种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们还经常在搜索结果中看到这些文件类型。但是,目前的搜索引擎无法处理图片、视频、Flash等非文本内容,也无法执行脚本和程序。

  虽然搜索引擎在识别图片和从 Flash 中提取文本内容方面取得了一些进展,但距离通过读取图片、视频和 Flash 内容直接返回结果的目标还差得很远。图片和视频内容的排名往往基于相关的文字内容。有关详细信息,请参阅下面的集成搜索部分。

  排名:用户输入关键词后,排名程序调用索引数据库数据,计算相关度,然后生成一定格式的搜索结果页面。

  搜索引擎蜘蛛爬取页面,索引程序计算倒排索引后,搜索引擎随时准备处理用户搜索。用户在搜索框中填写关键词后,排名程序调用索引数据库数据,计算排名并展示给用户。排名过程直接与用户交互。

  1.搜索词处理

  搜索引擎接收到用户输入的搜索词后,需要对搜索词进行一些处理,才能进入排名流程。搜索词处理包括以下几个方面。

  (1)中文分词。和页面索引一样,搜索词也必须是中文分词,将查询字符串转换成基于分词的关键词组合。分词的原理是一样的就像页面分词一样。

  (2)去除停用词。和索引一样,搜索引擎也需要从搜索词中去除停用词,以最大限度地提高排名相关性和效率。

  (3)指令处理。查询词完成分词后,搜索引擎默认的处理方式是使用关键词之间的“与”逻辑。也就是说,当用户搜索对于“减肥方法”,程序分词是对于“减肥”和“方法”这两个词,默认搜索引擎排名是用户在寻找同时收录“减肥”和“方法”的页面。只收录“减肥”但没有“方法”,或者只收录“减肥”和“方法”。带有“方法”的页面不收录“减肥”的页面被认为不符合搜索条件。当然,这是一个极其简化的说明原理的声明,事实上,我们仍然会看到只收录 关键词 结果的一部分的搜索。

  此外,用户输入的查询词还可能收录一些高级搜索指令,如加号、减号等,搜索引擎需要进行识别和相应的处理。稍后将详细描述高级搜索命令。

  (4)拼写错误更正。如果用户输入明显错误的单词或英文单词拼写错误,搜索引擎会提示用户使用正确的单词或拼写,如图

  

  (5)综合搜索触发。某些搜索词会触发综合搜索。比如名人名字经常触发图片和视频内容,当前热门话题很容易触发信息内容。哪些词触发哪个综合搜索,也需要要在搜索词处理阶段进行计算。

  2. 与搜索词匹配的文档处理后,搜索引擎根据词得到一组关键词。文件匹配阶段是查找收录所有关键词的文件。索引部分提到的倒排索引使文件匹配足够快。

  

  3. 初始子集的选择

  找到收录所有关键词的匹配文件后,无法进行相关性计算,因为找到的文件往往有几十万、几百万,甚至几千万。实时对这么多文件进行相关性计算需要很长时间。

  事实上,用户不需要知道所有匹配的数十万或数百万个页面,大多数用户只会查看前两个页面,即前 20 个结果。搜索引擎不需要计算这么多页面的相关性,只需要计算页面中最重要的部分。使用很多搜索引擎的人都会注意到,搜索结果页通常最多显示100页。当用户点击搜索结果页底部的“下一页”链接时,最多只能看到第100页,也就是1000个搜索结果,如图。

  

  谷歌显示 100 页搜索结果

  

  百度显示76页搜索结果

  所以搜索引擎只需要计算前1000条结果的相关性,就可以满足要求。

  但问题是,在尚未计算相关性的情况下,搜索引擎如何知道哪一千个文档最相关?因此,最终相关性计算的初始页面子集的选择必须依赖于相关性以外的其他特征,其中最重要的是页面权重。由于所有匹配的文档已经具有最基本的相关性(这些文档收录所有查询关键词),搜索引擎通常会选择不相关页面特征的初始子集。初始子集的数量是多少?多少?或许更多,外人不知道。但是可以肯定的是,当匹配的页面数量巨大时,搜索引擎不会计算这么多页面,而是必须选择权重更高的页面子集,

  4. 相关性计算

  在选择了初始子集后,将为子集中的页面计算 关键词 相关性。计算相关性是排名过程中最重要的一步。相关性计算是 SEO 搜索引擎算法中最有趣的部分。

  影响相关性的主要因素包括以下几个方面。

  (1)关键词 共同度。分词后,多个关键词对整个搜索字符串的意义贡献不同。越常用的词对搜索词的意义贡献越小,不常用的词对搜索词的意义贡献更大。例如,假设用户输入的搜索词是“我们冥王星”,“我们”这个词非常常用,会出现在很多页面上。搜索词“我们冥王星”对识别程度和意义相关性的贡献很小。识别那些收录“我们”这个词的页面对搜索排名相关性影响不大,有太多的页面收录“我们”这个词。

  虽然“冥王星”这个词不太常用,但它对搜索词“我们冥王星”的意义贡献更大。那些收录“冥王星”一词的页面将与搜索词“我们冥王星”更相关。

  常用词的极端是停用词,它对页面的意义没有影响。

  因此,搜索引擎不会对搜索词串中的关键词一视同仁,而是根据常用程度对其进行加权。不常用词权重系数高,常用词权重系数低,排序算法给不常用词更多词

  注意。

  假设“我们”和“冥王星”这两个词出现在 A 和 B 页面上。但是“我们”这个词出现在 A 页面的常规文本中,而“冥王星”这个词出现在 A 页面的标题标签中。页面 B 则相反,标题标签中有“我们”,常规文本中有“冥王星”。那么页面 A 将与搜索词“我们冥王星”更相关。

  (2)词频和密度。一般认为在没有关键词积累的情况下,搜索词在页面中出现的次数,密度越高,页面相关度越高当然,这只是一个普遍规律,实际情况可能并非如此,所以相关性计算中还有其他因素,频率和密度只是部分因素,重要程度越来越低。

  (3)关键词位置和表格。正如索引部分所述,页面 关键词 出现的表格和位置都记录在索引库中。关键词 出现在越重要的位置,如标题标签、粗体、H1等,页面与关键词的相关性越高,这部分就是页面SEO需要解决的。

  (4)关键词距离。分割后的关键词出现在完全匹配中,表示与搜索词最相关。例如,搜索“减肥方法”时,页面“减肥法”连续出现且完整 四个词相关度最高,如果“减肥”和“方法”这两个词不连续出现,它们看起来更接近,被搜索引擎认为相关性稍高。

  (5)链接分析和页面权重。除了页面本身的因素外,页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的就是锚文本。页面越多,搜索词就是锚文本的传入链接,说明页面的相关性越强。

  链接分析还包括链接源页面本身的主题、锚文本周围的文字等。

  上面简要描述的几个因素将在本书中更详细地描述。

  5.排名过滤和调整

  在选择匹配文档的子集并计算相关性之后,确定总体排名。之后,搜索引擎可能会有一些过滤算法对排名进行微调,其中最重要的就是进行处罚。虽然有些涉嫌作弊的页面按照正常的权重和相关性计算排在最前面,但搜索引擎的惩罚算法可能会在最后一步将这些页面移到后面。典型的例子有百度的11位、谷歌的负6、负30、负950等算法。

  6.排名显示

  确定所有排名后,排名程序调用原创页面的标题标签、描述标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面片段,而不是调用页面本身的描述标签。

  7.搜索缓存

  用户的 关键词 搜索中有很大一部分是重复的。根据 2/8 规则,20% 的搜索词占总搜索量的 80%。根据长尾理论,最常见的搜索词占不到80%,但通常头部比较粗,少数搜索词占所有搜索的很大一部分。尤其是在热门新闻方面,每天可能有数百万人搜索完全相同的 关键词。

  重新处理每次搜索的排名将是一种巨大的浪费。搜索引擎会将最常用的搜索词存储在缓存中,用户在搜索时直接从缓存中调用,无需经过文件匹配和相关性计算,大大提高了排名效率,缩短了搜索响应时间.

  8.查询并点击日志

  搜索引擎记录了搜索用户的IP地址、搜索到的关键词、搜索时间、点击了哪些结果页面。这些日志文件中的数据对于搜索引擎判断搜索结果的质量、调整搜索算法、预测搜索趋势具有重要意义。

  上面我们简单介绍了搜索引擎的工作流程。当然,实际搜索引擎的工作步骤和算法是非常复杂的。上面的说明很简单,但是涉及到很多技术难点。搜索引擎不断优化算法和优化数据库格式。不同搜索引擎的工作步骤也会有所不同。但基本上各大搜索引擎的基本工作原理都是这样的,过去几年不会有实质性的变化,未来几年是可以预期的。

  五、影响关键词排名的因素

  影响 关键词 排名因素、网站 内容相关性和 关键词 锚文本宽度,用户体验是在各种谷歌插件跟踪的客户页面上花费的时间。(google关键词 根据浏览排名

  浏览器 cookie 影响排名)

  (1、网站meta重要性,google爬取先从meta开始,影响页面及相关关键词的相关性,影响长尾关键词流量。

  (2、页面原创sex,唯一性,google对原创sex页面很感兴趣,原创sex页面收录加速权重更高,google一直在打击Pure 采集sexual网站,页面最好不要

  完整的图像,加上一些文字。作为一种常见做法,产品可见性描述的第一段必须是 原创。

  Google 对性的原创解释。

  (3、产品图片Alt标签,google不抓取图片,只抓取图片的Alt标签,同理

  当图片无法加载时,客户可以通过Alt标签知道图片的内容。

  (4、域名和网址链接,域名选择,网站路径设计(网址链接),对网站的排名有一定影响,尤其是英文网站,尤为重要。选择一门好语言

  网站的名称、路径和文件设计更合理,对你的网站在各种搜索引擎中的排名有很大帮助。

  显着提高 关键词 排名的 SEO 提示:

  关键词位置、密度、治疗

  关键词 出现在 URL 中(英文)

  关键词 (1-3) 出现在页面标题中

  关键词 出现在 关键词 标记中 (1-3)

  关键词 出现在描述标签中(主要的 关键词 重复了 2 次)

  关键词 自然出现在内容中

  内容的第一段和最后一段出现关键词

  导出链接锚文本收录 关键词

  图像的文件名收录 关键词

  关键词 出现在 ALT 属性中

  关键词密度6-8%

  粗体或斜体 关键词

  内容质量、更新频率、相关性

  原创的内容最好了,不宜多次转载

  内容独立,与其他页面至少有 30% 的差异

  1000-2000字,合理切分

  定期更新,最好每天更新

  内容围绕页面关键词,与整个网站的主题相关

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线