seo教程:搜索引擎优化入门与进阶电子版(蜘蛛检测并删除复制内容的常见问题及解决办法!)

优采云 发布时间: 2021-10-02 23:40

  seo教程:搜索引擎优化入门与进阶电子版(蜘蛛检测并删除复制内容的常见问题及解决办法!)

  (1)手动输入*敏*感*词*网站

  新建网站后,将网址收录提交给百度、谷歌或360。

  (2) 蜘蛛爬取页面

  当spider在解析html时发现新的url,将新的url存储到数据库中,以便访问。

  (3)站长提交网站

  提交网站只是将网站保存在要访问的数据库中。如果网站长时间不更新,蜘蛛就不会光顾了。搜索引擎收录的页面是由蜘蛛自己跟踪链接获取的。的。

  1.3.4 预处理

  “预处理”也简称为索引,因为索引是预处理中最重要的一步。通常在这个阶段完成对复制内容的蜘蛛检测和删除。

  1.3.4.1 提取文本

  搜索引擎预处理首先要做的是去除HTML文件中的标签和程序,提取网页的文本内容,用于排名处理。

  除了可见文本,搜索引擎还会提取一些收录文本信息的特殊代码,例如Meta标签中的文本、图片的替代文本、Flash文件的替代文本、链接锚文本等。

  1.3.4.2 中文分词

  英语等语言中,词与词之间有空格,句子可以直接分成词组,而汉语不行。

  分词方法有两种:

  (1) 基于字典匹配

  将要分析的一段汉字与预建字典中的一个词条进行匹配。从待分析的汉字字符串中扫描字典中已有的词条会匹配成功,或者拆分一个词。

  (2)基于统计

  分析大量文本样本,计算相邻单词出现的统计概率。相邻的几个词越多,形成一个词的可能性就越大。

  优点:对生词反应较快,对消除歧义也有帮助。

  事实上,这两种分词方法混合使用各自的优势。快照只能粗略地帮助判断分词。分词的效果是由词典的大小和算法决定的。

  1.3.4.3 停止词

  中文或英文中会出现一些经常出现的感叹词、副词或介词,如“地”、“的”、the、to、of等,对页面的主要含义没有影响,应该移除。

  1.3.4.4 消除噪音

  “噪音”:对页面主题没有贡献,例如版权声明、导航栏、广告等。

  降噪的基本方法:根据HTML标签将页面分块,区分页眉、导航、正文、页脚、广告等,网站上大量重复的块往往就是噪声。

  1.3.4.5 移除

  同一个文章经常会出现在不同的网站和同一个网站的不同网址上。搜索引擎必须识别并删除重复项。

  去重的基本方法——计算页面特征的指纹关键词

  从页面的主要内容中选择最具代表性的部分关键词(多为出现频率最高的关键词),然后计算这些关键词的数字指纹。

  这里的关键词是在分词、去停用词、降噪后选择的。通常选择10个特征关键词以获得更高的准确率。

  典型的算法是MD5算法。

  1.3.4.6 前向索引

  经过以上处理,就可以提取关键词,按照分词程序进行分词,将页面转换成一组关键词,记录每个关键词在页面上出现的频率page 、出现次数、格式(如标题标签、粗体、H 标签、锚文本等)、位置(如页面第一段等)

  1.3.4.7 倒排索引

  前向索引不能直接用于排名。搜索引擎会将正向索引数据库重构为倒排索引,将文件到关键词的映射转换为关键词到文件的映射。

  1.3.4.8 链接关系计算

  搜索引擎抓取页面内容后,必须提前计算:页面上的哪些链接指向其他页面,每个页面上有哪些导入链接,链接中使用了哪些锚文本。这些复杂的链接指向关系构成了网站和页面的链接权重。

  1.3.4.9 特殊文件处理

  搜索引擎通常可以抓取和索引多种基于文本的文件类型,例如 PDF、Word、WPS、XLS、PPT、TXT 文件等。

  1.3.5 Ranking1.3.5.1 搜索字处理

  搜索引擎收到用户输入的搜索词后,需要对搜索词进行处理,才能进入排名过程。

  例如,名人的名字经常触发图片和视频内容,当前的热门话题很容易触发信息内容。

  1.3.5.2 文件匹配

  查找收录所有关键词的文件,倒排索引可以使文件匹配可以快速完成。

  1.3.5.3 选择初始子集

  找到收录所有关键词的匹配文件后,无法进行相关计算,因为经常会找到几十万、几百万甚至几千万的文件。

  大多数用户只查看前 2 页,也就是前 20 个结果。搜索结果页最多可以显示100页,共1000条结果,所以搜索引擎只需要计算前1000条结果的相关度就可以满足要求。

  1.3.5.4 计算相关性

  选择初始子集后,为子集中的页面计算关键词的相关性。

  例如,搜索“减肥方法”,页面上连续完整出现的“减肥方法”四个词最相关。如果“减肥”和“方法”不连续匹配,但看起来更接近,也被认为稍微更相关。

  1.3.5.5 排名过滤器调整

  新增惩罚机制,对基本确定的排名进行微调

  1.3.5.6 排名显示1.3.5.7 搜索缓存

  重新处理每次搜索的排名会非常低效。最常见的搜索词存储在缓存中,用户直接从缓存中搜索。

  1.3.5.8 记录用户查询和点击日志1.3.6 链接原理

  在排名中收录链接因素不仅有助于减少垃圾邮件并提高结果的相关性,还可以处理传统关键词匹配无法排名的文件。例如,图片和视频文件不能与关键词匹配,但可能有外部链接。通过链接信息,搜索引擎可以了解图片和视频的内容并对其进行排名。

  1.3.7 HITS算法

  HITS 算法会提取两个重要的页面——枢纽页面和权威页面。

  枢纽页面:可能导入的链接不多,但是指向权威页面的导出链接很多。比如Hao123上网导航

  权威页面:导出链接可能不多,但是从hub页面导入的链接很多。它通常是一个提供真正相关内容的页面。

  努力成为权威页面,如果不能成为权威页面,就让它成为一个pivot页面。因此,从不链接到其他网站的做法并不是一个好的SEO方法。

  1.3.8 TrustRank 信任指数算法

  TrustRank算法的基本假设:好的网站很少链接到坏的网站,但是坏的网站会链接到高权限和高信任指数网站,试图提高自己信任指数。

  TrustRank 算法适用于页面和域名。

  TrustRank 值计算方法:

  选择非常值得信赖的第一级网站,信任指数最高;第一级网站链接到第二级网站,信任指数下降;二级链接到二级三级信任指数较低...信任指数随着点击距离(级别数)的增加而下降。

  1.3.9 谷歌公关

  PR=PageRank,发明者是谷歌创始人拉里佩奇,即反向链接越多的页面越重要,PR值越高。

  与论文的引用类似,如果论文 A 被引用的频率更高,那么 A 就是一篇高质量的论文。

  PR值较高的含义:

  1)网站收录 深度越宽,总页数越多

  2)搜索引擎蜘蛛访问更频繁,更新更快

  3)当谷歌在不同的网站上发现完全相同的内容时,它会选择一个为原创,另一个为转载或抄袭。PR值越高,越容易被认为是原创。

  4) 影响排名的初始子集的选择

  1.3.10 山顶算法

  传统的 PR 值与特定的 关键词 或主题无关,只计算链接关系。Hilltop 算法也计算链接关系,但它更关注来自主题相关页面的链接的权重。与PR值起到互补作用。

  Hilltop 算法将此主题相关页面称为专家文件。

  启示:

  建立外链时,要多注意与话题相关的网站。搜索前面有关键词的页面是最好的链接源,甚至可能是竞争对手网站的链接效果最好。

  1.4 高级搜索命令1.4.1 双引号

  将搜索词放在双引号中表示完全匹配搜索,即搜索结果返回的页面收录所有出现在双引号中的词,并且顺序也必须完全匹配。

  1.4.2 减号

  这意味着搜索不收录减号后的单词的页面。使用该命令时,减号前必须有空格,减号后没有空格,后面是要排除的单词。

  1.4.3 个星号

  星号是最常用的通配符,表示任何字符。但是百度不支持这个指令。

  1.4.4 inurl

  用于搜索 URL 中出现查询词的页面。

  URL中关键词的出现对排名有一定的影响。因此,使用inurl可以更准确地找到竞争对手。

  1.4.5 inanchor

  inanchor: 命令返回的结果是导入在链接的锚文本中收录搜索词的页面。百度不支持锚定。

  在 Google 上搜索锚点:单击此处

  返回的结果页面本身并不一定收录“click here”四个字,但“click here”四个字出现在这些页面链接的锚文本中。

  这个指令可以找到某个关键词的竞争对手,而这些竞争对手往往都做过SEO。通过研究竞争对手页面上的外部链接,您可以找到许多链接资源。

  1.4.6 标题

  intitle:该命令返回页面标题中收录关键词的页面。

  1.4.7 allintitle 和 allinurl

  allintitle:搜索返回页面标题中收录多组关键词的文件。

  例如,“allintitle:SEO 搜索引擎优化”相当于“intitle:SEO intitle:search engine optimization”

  结果是一个标题中同时收录“SEO”和“搜索引擎优化”的页面。

  allinurl 也是如此:

  "Allinurl:SEO 搜索引擎优化" = "inurl:SEO inurl:搜索引擎优化"

  1.4.8 文件类型

  用于搜索特定的文件格式,例如“filetype:pdf SEO”

  1.4.9 站点

  用于搜索域名下的所有文件

  1.4.10 链接和链接域

  link 命令用于搜索 url 的反向链接,包括内部链接和外部链接。百度不支持链接命令。

  linkdomain 指令仅适用于雅虎,它返回某个域名的反向链接。雅虎的外链数据比较准确,是SEO人员研究对手外链情况的重要工具之一。

  1.4.11 相关

  相关:该命令只适用于谷歌,返回的结果是与某个网站相关的页面。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线