蜘蛛（spider）、360蜘蛛、搜狗蜘蛛+web+robot

优采云发布时间: 2021-05-30 07:32

　　搜索引擎的工作原理大致可以分为三个步骤

　　1、抓取信息，搜索引擎蜘蛛通过跟踪链接查找和访问页面，读取页面代码，并保存到数据库中

　　2、预处理，索引程序对抓取到的页面进行排序，提取、分析、排序，以便有搜索需求时调用。

　　3、排名，用户搜索后，排名程序会调用处理后的数据计算相关性，并显示为搜索结果。

　　一、获取信息

　　1、 Spider：搜索引擎用来抓取和访问页面的程序称为蜘蛛。

　　1）会先访问robots.txt文件，这是一个防止蜘蛛爬取链接的协议。

　　2）百度蜘蛛（baiduspider）、360蜘蛛（360spider）、搜狗蜘蛛（sogou+web+robot）

　　二、跟踪链接

　　为了在互联网上抓取尽可能多的页面，蜘蛛会跟随网页上的链接，抓取从一个页面到另一个链接的链接。这也是蜘蛛名字的由来，就像蜘蛛在蜘蛛网上爬行一样。

　　这里有两种类型：

　　1、深度链接：向前爬，没人的时候爬到最后，然后回到第一个链接开始爬第二个。

　　2、广度链接：逐层爬行。

　　（Ps绘图说明）

　　所以，为了我们自己的网站更好的收录，尽量处理deep linking和wide linking。不要让链接中断。还必须采用不同的方法来吸引蜘蛛爬行。

　　1、网页的质量和重量。质量越高网站，爬取深度越深，内页越好收录

　　2、页面的更新。你需要不断地向网站添加新页面，以形成蜘蛛的习惯。如果你网站爬取，内容总是一样的。然后，将在以后进行分析，无需进行分析。不会有新的收录。（还有一个喂蜘蛛网的理由）

　　3、导入链接。将蜘蛛抓取的其他网页的链接导入到您要抓取的页面，利于抓取。

　　4、与首页的距离，离首页越近，爬取越频繁，收录越好。

　　5、提交地址，可以使用sitemap和提交，让蜘蛛爬行速度比普通爬行略快。

　　6、避免重复内容，重复内容不是必须的。

　　三、预处理

　　互联网信息量巨大，在您查询时无法实时提供符合您要求的信息。因此，信息将被提前处理以进行备份。这就是为什么收录显示在站长里，但在网页搜索中没有反馈。

　　1、提取文本

　　搜索引擎会从代码中提取文本、标签、alt 属性文本、标题文本、锚文本（带链接的文本），提取过程中会删除其他一些程序。

　　2、分词，因为英文单词有空格，中文分词没那么明显。程序会根据自己的词库和网友搜索进行区分。如果你说你的关键词可能导致百度分词不当，我们可以把这个关键词加粗，表示是一个词。

　　3、转到一些不必要的动词粒子。比如ah、yes、de等对整个页面没有实际意义的词，爬虫会去掉，提取有用的信息。

　　4、去重信息。如果有两个页面相同的文章，相同的页面。因此，当我们搜索某个东西时，在百度上不会看到两个信息完全相同的页面。

　　5、索引排序

0

2021-05-30

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册