seo优化搜索引擎工作原理(一下我是如何学通搜索引擎工作原理的蜘蛛爬网抓虫子)

优采云 发布时间: 2021-12-31 03:08

  seo优化搜索引擎工作原理(一下我是如何学通搜索引擎工作原理的蜘蛛爬网抓虫子)

  对于每个做SEO优化的人来说,最基本的,至少要了解搜索引擎的工作原理,因为我们在做网站优化的时候,是通过与搜索引擎打交道来实现的。网站的排名!有必要研究搜索引擎的工作原理。今天和大家分享一下我是如何学习搜索引擎的工作原理的。其实很简单。您可以将搜索引擎的工作原理模拟为蜘蛛爬行和捉虫的图像。具体流程是怎样的?我可以给你详细分析:

  搜索引擎的工作原理大致可以分为三个阶段:

  第一阶段:爬行和爬行:

  即搜索引擎蜘蛛通过跟踪链接地址访问网站页面,并将获取到的网站页面html代码放入自己的数据库中。爬取和爬取是搜索引擎工作的第一步,主要完成数据采集的任务;

  解释几个关键词

  1.蜘蛛:

  (1) 定义:我在抓取网页数据时称它为执行器,其实就是一个计算机程序,因为工作过程与现实中的蜘蛛非常相似,专业上称之为搜索引擎蜘蛛。 !

  (2) 工作流程:蜘蛛程序向网站页面发送访问请求,服务器返回HTML代码,蜘蛛程序将接收到的代码存储到原创页面的数据库中。蜘蛛访问任何网站时,都会首先访问网站根目录下的robots.txt文件!如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛会遵守这些禁令,不会抓取那些被禁止的网址。

  (3) 常见搜索引擎蜘蛛名:

  百度蜘蛛、雅虎中国蜘蛛、谷歌蜘蛛、微软必应蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等!

  2. 追踪链接

  大家都知道,整个互联网是由相互连接的网站页面组成的!页面和页面通过链接连接。搜索引擎可以通过使用搜索引擎蜘蛛跟踪网站页面上的链接,更快地采集网站数据,并从一个页面抓取它们下一页!这个过程就像蜘蛛在蜘蛛网上爬行一样!这样,蜘蛛就可以快速爬取整个网站 网络页面!

  根据网站的不同链接结构,我们可以将蜘蛛的爬行路线分为两种:深度爬行和广度爬行

  A:深度爬行:蜘蛛沿着找到的页面链接向前爬行,直到前面没有其他链接,然后回到第一页,沿着另一个链接向前爬行!

  B:广度爬行:当蜘蛛在一个页面上发现多个链接时,它不会沿着一个链接向前爬,而是爬取页面上所有的一级链接,然后沿着二级页面继续爬取找到的链接到第三页!继续这样……

  所以,我们在做网站的时候,对于网站的结构一定要有这两种布局,而且在优化网站页面的时候也要做好这两种链接布局!这个结构被搜索引擎蜘蛛群喜欢了!

  3、针对性优化技术引诱蜘蛛

  A:阅读网站,优化页面权重,增加蜘蛛访问次数。

  B:做好页面更新频率和内容质量

  C:增加导入链接

  D:离首页的点击距离;离首页的点击距离越近,页面权重越高,蜘蛛爬行的机会就越大

  4.地址库,

  搜索引擎会建立一个地址库来存储页面,目的是为了防止搜索引擎蜘蛛反复抓取和抓取网址。这个地址库里有被抓取的页面,也有被发现后没有被抓取的页面!

  这个地址库中的URL一定要被蜘蛛爬取吗?答案是不

  有手动输入的*敏*感*词*网站地址,也有站长通过搜索引擎网页提交表单提交的网址!(百度网址提交地址:)

  还有一点需要注意的是:网址一旦提交,不一定能成为收录,这要看你提交的页面权重了!但是,搜索引擎蜘蛛还是喜欢按照链接来爬取页面!你得到的更好吃!

  5. 文件存储

  搜索引擎蜘蛛抓取到的页面都存储在这个原创页面数据库中!每个 URL 都有一个唯一的文件编号!

  6. 复制内容检测

  很多站长都遇到过这个问题:我在网站页面发现蜘蛛爬行,但是页面没有被收录。我不知道发生了什么!事实上,这非常简单。很有可能蜘蛛在抓取你的网页时发现了很多权重较低的内容,例如:转载或伪原创内容,蜘蛛就会离开!您的网页尚未收录!蜘蛛在抓取页面内容的时候也会进行一定程度的复制内容检测!

  第二阶段:预处理

  这个过程是指:索引程序对数据库中蜘蛛爬取的网站页面进行处理,主要做文本提取、中文分词、索引等;

  这个过程起到了桥梁的作用。因为搜索引擎数据库中的数据太多,当用户在搜索框中输入关键词时,不可能一下子返回排名结果,但往往我们觉得非常快,其实就是这个过程预处理起着关键作用!就像爬行的过程,他是在后台提前完成的!

  有些人认为预处理就是索引,但事实并非如此。索引只是预处理的一个主要步骤。那么什么是索引?索引是一种对数据库列表中一列或多列的值进行排序的结构!

  在索引之前有五个任务需要完成:

  1.提取文本:

  我们知道蜘蛛爬取的是一个收录所有HTML代码的页面,里面其实收录了很多信息:有文本,有CSS属性,有很多HTML格式标签,javascript程序!但后两者不能参与排名内容,也就是说,除文字外的所有内容都被删除。这个过程就是去除过程,也叫提取文本的过程,即:提取可用于排名的网站页面文本内容!

  注:搜索引擎除了提取可见文本外,还可以提出以下不可见文本内容;例如:METa标签中的文本内容、图片替代文本、FLASH文件替代文本、链接锚文本等!

  2.中文分词

  大家都知道中文句子和英文句子是有区别的。不是字母和汉字的区别。相反,英语单词和单词用空格分隔。在中文句子中,词与词之间没有分隔符。一句话里的词都是连在一起的!所以,这时候搜索引擎首先要区分哪些字符构成一个词,哪些字符本身就是一个词!例如:“波司登羽绒服”分为两个词:“波司登”和“羽绒服”;

  中文分词一般有两种方法:

  A:字典匹配:分为正向匹配和反向匹配!

  B:根据搜索统计

  两者经常混用!而且,百度和谷歌中分词的相关性有时是不同的。例如,搜索引擎优化在百度中是一个完整的词,但在谷歌中分为“搜索”、“引擎”和“优化”。部分,所以在做优化的时候一定要注意选择关键词的特性。后面我们会详细讲解选词技巧。

  注意:如果我们要合并一个词,而不让搜索引擎的分词技术将它分开怎么办?

  我们可以这样做:在页面标题、h1标签中,使用粗体将关键词! 这样,搜索引擎就得到了适当的提醒,搜索引擎就会知道“我们的”这个词是一个组合,不会分开!

  3.去停词

  什么是停用词?这些是在页面上出现频率较高且对内容没有实质性影响的词;例如:“的”、“得”、“地”这些助词,“啊”、“哈”、“啊”等感叹词,“thus”等副词或介词如“”“”“”,”等,这些词被称为停用词!英文:the、a、an、to、of等。

  搜索引擎停用词有两个主要目的:

  一是使指标数据的主体更加突出,减少不必要的计算;

  另一种是:检测你的内容是否与另一个数据库中的内容有很多重复

  在这里需要提醒大家:以后不要随便复制网上的一篇文章文章加上几个停用词贴在你的网站上。了解了上面的内容,你应该就知道是什么意思了。向上!

  4.去除噪音:

  这里的noise并不是我们所说的noise,它特指一种垃圾,也就是多余的话!这些词一般收录在版权声明文本、导航栏和广告中!消除噪音是为了让页面更好地展示主题内容:

  示例:博客中的“类别”和“历史档案”!

  5.去除(冲)

  这意味着什么?如果相同的 文章 出现在不同的 网站 或链接上

  对于不同的地址,搜索引擎会认为它是一个文件,它不喜欢这样重复的内容,所以它不会抓取!在建立索引之前,需要对这些内容进行识别并删除重复的内容,这就是所谓的“去重”!

  如何去除繁重的搜索引擎!我们不需要掌握技术,但要注意几个关键点:

  答:只要加上“得”、“地”、“得”,很容易辨认,一定要慎重使用!

  B:复制别人的文章,简单交换段落结构!这种伪原创也一定要慎​​用!

  这是因为:这样的操作无法改变文章的具体关键词,上述方法也逃不过搜索引擎的去重算法。

  经过以上五个步骤,搜索引擎将能够得到独特的、能够反映页面主要内容的基于词的内容。

  然后搜索引擎程序将上面提取的关键词通过分词程序进行分割,将每个网站页面转换成关键词的集合!同时记录每个关键词在页面上出现的频率、次数、格式(如:标题标签、粗体、H标签、锚文本等)位置(段落)。这些都以重量的形式记录下来!然后放到一个地方,这个地方就是这些复合词的词汇结构——索引库!也作为“词库索引表”移交

  什么是前向指数:

  每个文件夹对应一个ID,文件内容表示为关键词! 在搜索引擎的索引库中,此时关键词还没有转换成关键词 ID,这个数据结构叫做正向索引!

  画个图让大家明白:

  

  什么是倒排索引?

  因为前向索引不能直接用于排名!例如:如果用户搜索某个关键词2,如果从前向索引中只能找到收录关键词的文件夹,则实际上无法返回排名;在这种情况下,倒排索引将被使用

  在倒排索引中,关键词成为主键,每个关键词对应一系列文件,每个文件都出现关键词被搜索,这样用户在搜索某个关键词使用时,排序程序可以在倒排列表中找到这个关键词对应的文件!

  详情请看图片:

  

  特殊文件的处理:

  除了抓取HTNL文件外,搜索引擎还可以抓取以下文件类型:PDF、Word、WPS、PPT、TXT等,但需要注意的是:搜索引擎不能抓取图片、视频、Flash等文本内容。无法执行脚本和程序!所以当你在做SEO的时候,你网站尽量少用这些!

  链接关系的计算:

  搜索引擎抓取页面后,还要提前计算页面上的哪些链接指向哪些页面。每个页面导入的链接是什么,链接中使用了哪些锚文本?正是这些复杂的链接指向关系,构成了网站和页面的链接权重!例如:Google的PR值就是这些关系的重要体现,后面会详细解释!

  第三阶段:排名:

  排名过程是与用户交互的过程:用户进入关键词后,排名程序调用索引库中的数据,计算相关性,生成一定格式的搜索结果页面!

  1、检索词的处理

  A:中文分词;我以前说过

  B:转到停止词;我之前说过;

  C:命令处理:搜索引擎默认的处理方式是在关键词之间使用“与”逻辑。例如,当用户搜索“网站Build”时,搜索引擎默认为用户想要查找的内容。收录“网站”和“Build”的页面!

  常见的搜索命令有加号和减号。还有哪些其他搜索命令?如何使用搜索命令将在后面的一节中详细说明!

  D:如果用户输入了明显错误的单词或英文单词,搜索引擎会提示用户使用正确的单词或拼写!例如:搜索“建站技巧”

  E:集成搜索触发器!比如搜索名人,就会有图片、视频等内容!适合热点话题;

  2. 文件匹配如何工作?

  这部分可以在倒排索引中快速完成:见图

  

  如果用户搜索同时收录关键词2 和关键词3 的词,那么该组将准确找到关键词2 和关键词 3 个文件,然后返回!

  3.如何选择初始子集?

  互联网上有几万个页面,搜索某个关键词就会有几千万个页面。如果搜索引擎直接计算页面的相关性,那就太费时了。!事实上,用户不需要看到这几千个页面,他们只需要一两个有用的页面!这时,搜索引擎会根据用户的搜索词选择100个文件,然后返回。那么他们选择了哪一百个文件呢?这取决于您的 网站 页面和用户搜索的 关键词 之间的相对匹配!权重高的页面会进入搜索引擎的预选子集!

  4. 计算相关性

  选择子集后,将计算页面的相关性。我们不需要知道搜索引擎是如何计算页面相关度的,但是我们知道影响页面相关度计算的因素,这将有助于我们进一步优化我们的网站!

  SEO 关注以下因素:

  A:关键词 的频率:例如,“来吧 UFO”

  B:词频和密度

  在没有关键词积累的情况下,一般认为页面上出现的搜索词的数量和密度越高,页面与搜索词的相关性就越高!

  C:关键词的位置和形式

  位置研究主要包括:首页还是副页?表格主要研究:标题标签、黑体、H1

  D关键词距离:例如搜索词是“网站建”,如果页面上出现多次“网站建”而不是单独的“网站 " 后面没有施工,或者没有施工网站!

  E:链接分析和页面权重

  链接和权重的关系主要是锚文本,作为锚文本链接导入多少搜索词更相关

  5.排名过滤和调整

  选择匹配的文件子集后,大致排名就差不多确定了!这里做的排名过滤主要是针对那些依赖作弊手段,涉嫌作弊的网站调整!虽然根据之前的工作计算出的这些网站的权重和相关度很高,但是搜索引擎也会在最后一步过滤掉这些网站!

  6.排名展示效果

  主要显示为:原页面的标题标签、描述标签、快照日期等数据!

  注意:有些网站是搜索引擎,需要调用动态生成的页面摘要,而不是调用页面本身的描述!

  7、搜索引擎缓存的作用:

  搜索引擎会记录一些用户经常搜索的词,并将这些搜索到的排名记录存储在搜索引擎的缓存中。当用户一次搜索这个词时,搜索引擎会直接调用缓存中的内容!这样就缩短了搜索响应时间,大大提高了排名效率!

  总结:以上就是对搜索引擎整个工作流程的详细介绍!这些只是概念上的东西。其实搜索引擎的工作步骤和算法远比我们想象的复杂!不过没关系,我们只需要了解SEO的这些基本概念就可以了!搜索引擎算法还在优化中,有兴趣的同学可以多多关注,这也有助于他们在优化上有新的突破!以上介绍的概念大致就是主流搜索引擎的基本工作原理!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线