《搜索引擎原理系列教程》之三个比较关心
优采云 发布时间: 2021-08-13 04:01《搜索引擎原理系列教程》之三个比较关心
《搜索引擎原理系列教程》虽然不是一本书,但也弥补了百度白皮书中信息量和内容量大的一些不足。教程完全是民间SEO爱好者总结的,这种精神值得称赞。这里还是想讲三个方面,也是我们SEOER比较关心的三个方面:收录、索引、排名。
一、收录
搜索引擎采集网页的过程,收录其实是一个复杂的过程,他简单分为这四个步骤:
1、调度器是整个采集过程的核心。它存储了一个访问过的 URL 库和一个未访问过的 URL 库,统称为 URL 库。一开始,调度器会从未访问过的URL库中检索一个URL,分配给蜘蛛,让蜘蛛抓取没有被抓取的URL。
2、 当蜘蛛获取到一个 URL 时,它会向该 URL 发送一个爬取请求。流程为:URL对应域名的DNS解析->获取Socket连接的IP->连接成功并发送http请求->接收网页信息。
3、蜘蛛获取网页信息后,将源代码返回给调度器,调度器将源代码保存到web数据库中。
4、调度器会从抓取到的网页中提取链接,将没有抓取到的网址存入未访问网址库,将刚刚抓取到的网址更新到抓取到的网址库中。
这将涉及重复数据删除
调度器的工作流程
1、从从未访问过的URL列表中依次取出URL,分配给每个蜘蛛。
2、蜘蛛获取URL,对其进行爬取,获取网页源代码,从源代码中提取URL,获取网页中收录的所有URL。
3、Scheduler 依次检查获取的 URL 是否存在于访问的 URL 库中。如果存在,则表示已被抓取,则丢弃该URL;如果不存在,则表示该网址未被抓取,将序列加入未访问网址列表,等待后抓取。
4、重复步骤1,直到未访问列表为空。
二、index
网页预处理
1、 索引原创网页。
2、根据搜索到的网页库对网页进行分段,并将每个页面转换为一组词。 (前向指数)
3、将网页到索引词的映射转换为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表)
一般来说,搜索引擎从网页数据库中获取网页,然后进行代码过滤,然后提取正文信息并进行分词。下一步就是过滤关键词集合,得到网页关键词前进索引。最后,搜索引擎将正向索引从关键词 转换为网页的反向索引。正是这项技术,让搜索引擎能够在1S内将搜索结果呈现给用户。
此外,搜索引擎执行的操作是网页净化和重复数据删除。除了去除网页中的嘈杂内容(如广告、版权等),提取网页主题和相关内容,去除网页集合中的重复内容。
可能有同学会问,搜索引擎是怎么识别主要内容的?实际上,该算法依赖于HTML标签树的建立和投票方式来识别正文。
例如,让我们设置规则,
1、如果文本块的文本长度小于10个字,0分。 10-50 字之间 5 分。 50 到 250 个单词得 8 分。 250字以上10分。
2、文本块的文本位置在右边,0分奖励。在顶部,奖励 3 分。在左侧,奖励 5 分。中间,得10分。
那么我们可以得出结论,页面TITLE得分为9,文本粗体H1标签得分为8,依此类推,DIV部分的AD部分得分为0,被丢弃。
(以上例子仅供参考,与实际算法无关)
搜索引擎必须经过三个步骤才能删除重复的网页。首先是特征提取(涉及I-Match算法和Shingle算法),然后是相似度计算,相似度评估,最后是去除。
其实搜索引擎算法和用户交互的过程就是一个查询过程。例如,用户搜索“搜索引擎原理”。经过算法分词,得到“搜索引擎”。 “原理”见倒排索引表。这两个文档列表,相交,然后将上一步找到的用户查询和文档列表中的一条记录向量化,找到查询向量和文档向量的相似度,然后从高到低排序,最后我们得到什么查看最终搜索结果。
三、ranking
最后,举个例子作为结尾:
搜索引擎网页权重=网页词条基本权重+链接权重+用户评价权重
网页中术语的基本权重
1、 比如搜索引擎环境中的某个关键词“搜索引擎”,权重应该是:WBT=W+W, (h1)+W,(b)=10+12+4 =26
2、关键词“搜索引擎”也可能在文档的其他地方出现n次,每次出现可以计算为一个WBT1、WBT2、WBT3...WBTn,那么整个文档就可以被计算“搜索引擎”关键词的权重为:
wBT(关键词,webpage)=WBT,+ WBT,+…+WBTT=>wBT
相关排名-链接权重计算
相关排名-用户评价权重计算
....
计算最终重量
搜索引擎可以配置KWB、KWL、KWU来设置影响权重的重点因素。例如,如果搜索引擎将KWL设置为0.8,KWB和KWU都是0.1,那么搜索引擎更关注链接对权重的影响。通过该算法,您可以轻松调整算法。
本文链接: