蜘蛛(spider)、360蜘蛛、搜狗蜘蛛+web+robot

优采云 发布时间: 2021-05-30 07:32

  蜘蛛(spider)、360蜘蛛、搜狗蜘蛛+web+robot

  搜索引擎的工作原理大致可以分为三个步骤

  1、抓取信息,搜索引擎蜘蛛通过跟踪链接查找和访问页面,读取页面代码,并保存到数据库中

  2、 预处理,索引程序对抓取到的页面进行排序,提取、分析、排序,以便有搜索需求时调用。

  3、 排名,用户搜索后,排名程序会调用处理后的数据计算相关性,并显示为搜索结果。

  一、获取信息

  1、 Spider:搜索引擎用来抓取和访问页面的程序称为蜘蛛。

  1)会先访问robots.txt文件,这是一个防止蜘蛛爬取链接的协议。

  2)百度蜘蛛(baiduspider)、360蜘蛛(360spider)、搜狗蜘蛛(sogou+web+robot)

  二、跟踪链接

  为了在互联网上抓取尽可能多的页面,蜘蛛会跟随网页上的链接,抓取从一个页面到另一个链接的链接。这也是蜘蛛名字的由来,就像蜘蛛在蜘蛛网上爬行一样。

  这里有两种类型:

  1、 深度链接:向前爬,没人的时候爬到最后,然后回到第一个链接开始爬第二个。

  2、广度链接:逐层爬行。

  (Ps绘图说明)

  所以,为了我们自己的网站更好的收录,尽量处理deep linking和wide linking。不要让链接中断。还必须采用不同的方法来吸引蜘蛛爬行。

  1、 网页的质量和重量。质量越高网站,爬取深度越深,内页越好收录

  2、 页面的更新。你需要不断地向网站添加新页面,以形成蜘蛛的习惯。如果你 网站 爬取,内容总是一样的。然后,将在以后进行分析,无需进行分析。不会有新的收录。 (还有一个喂蜘蛛网的理由)

  3、导入链接。将蜘蛛抓取的其他网页的链接导入到您要抓取的页面,利于抓取。

  4、与首页的距离,离首页越近,爬取越频繁,收录越好。

  5、提交地址,可以使用sitemap和提交,让蜘蛛爬行速度比普通爬行略快。

  6、 避免重复内容,重复内容不是必须的。

  三、 预处理

  互联网信息量巨大,在您查询时无法实时提供符合您要求的信息。因此,信息将被提前处理以进行备份。这就是为什么收录显示在站长里,但在网页搜索中没有反馈。

  1、提取文本

  搜索引擎会从代码中提取文本、标签、alt 属性文本、标题文本、锚文本(带链接的文本),提取过程中会删除其他一些程序。

  2、 分词,因为英文单词有空格,中文分词没那么明显。程序会根据自己的词库和网友搜索进行区分。如果你说你的关键词可能导致百度分词不当,我们可以把这个关键词加粗,表示是一个词。

  3、 转到一些不必要的动词粒子。比如ah、yes、de等对整个页面没有实际意义的词,爬虫会去掉,提取有用的信息。

  4、 去重信息。如果有两个页面相同的文章,相同的页面。因此,当我们搜索某个东西时,在百度上不会看到两个信息完全相同的页面。

  5、索引排序

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线