《搜索引擎原理系列教程》之三个比较关心

优采云发布时间: 2021-08-13 04:01

　　《搜索引擎原理系列教程》之三个比较关心

　　《搜索引擎原理系列教程》虽然不是一本书，但也弥补了百度白皮书中信息量和内容量大的一些不足。教程完全是民间SEO爱好者总结的，这种精神值得称赞。这里还是想讲三个方面，也是我们SEOER比较关心的三个方面：收录、索引、排名。

　　一、收录

　　搜索引擎采集网页的过程，收录其实是一个复杂的过程，他简单分为这四个步骤：

　　1、调度器是整个采集过程的核心。它存储了一个访问过的 URL 库和一个未访问过的 URL 库，统称为 URL 库。一开始，调度器会从未访问过的URL库中检索一个URL，分配给蜘蛛，让蜘蛛抓取没有被抓取的URL。

　　2、当蜘蛛获取到一个 URL 时，它会向该 URL 发送一个爬取请求。流程为：URL对应域名的DNS解析->获取Socket连接的IP->连接成功并发送http请求->接收网页信息。

　　3、蜘蛛获取网页信息后，将源代码返回给调度器，调度器将源代码保存到web数据库中。

　　4、调度器会从抓取到的网页中提取链接，将没有抓取到的网址存入未访问网址库，将刚刚抓取到的网址更新到抓取到的网址库中。

　　这将涉及重复数据删除

　　调度器的工作流程

　　1、从从未访问过的URL列表中依次取出URL，分配给每个蜘蛛。

　　2、蜘蛛获取URL，对其进行爬取，获取网页源代码，从源代码中提取URL，获取网页中收录的所有URL。

　　3、Scheduler 依次检查获取的 URL 是否存在于访问的 URL 库中。如果存在，则表示已被抓取，则丢弃该URL；如果不存在，则表示该网址未被抓取，将序列加入未访问网址列表，等待后抓取。

　　4、重复步骤1，直到未访问列表为空。

　　二、index

　　网页预处理

　　1、索引原创网页。

　　2、根据搜索到的网页库对网页进行分段，并将每个页面转换为一组词。（前向指数）

　　3、将网页到索引词的映射转换为索引词到网页的映射，形成倒排文件（包括倒排表和索引词表）

　　一般来说，搜索引擎从网页数据库中获取网页，然后进行代码过滤，然后提取正文信息并进行分词。下一步就是过滤关键词集合，得到网页关键词前进索引。最后，搜索引擎将正向索引从关键词转换为网页的反向索引。正是这项技术，让搜索引擎能够在1S内将搜索结果呈现给用户。

　　此外，搜索引擎执行的操作是网页净化和重复数据删除。除了去除网页中的嘈杂内容（如广告、版权等），提取网页主题和相关内容，去除网页集合中的重复内容。

　　可能有同学会问，搜索引擎是怎么识别主要内容的？实际上，该算法依赖于HTML标签树的建立和投票方式来识别正文。

　　例如，让我们设置规则，

　　1、如果文本块的文本长度小于10个字，0分。 10-50 字之间 5 分。 50 到 250 个单词得 8 分。 250字以上10分。

　　2、文本块的文本位置在右边，0分奖励。在顶部，奖励 3 分。在左侧，奖励 5 分。中间，得10分。

　　那么我们可以得出结论，页面TITLE得分为9，文本粗体H1标签得分为8，依此类推，DIV部分的AD部分得分为0，被丢弃。

　　（以上例子仅供参考，与实际算法无关）

　　搜索引擎必须经过三个步骤才能删除重复的网页。首先是特征提取（涉及I-Match算法和Shingle算法），然后是相似度计算，相似度评估，最后是去除。

　　其实搜索引擎算法和用户交互的过程就是一个查询过程。例如，用户搜索“搜索引擎原理”。经过算法分词，得到“搜索引擎”。 “原理”见倒排索引表。这两个文档列表，相交，然后将上一步找到的用户查询和文档列表中的一条记录向量化，找到查询向量和文档向量的相似度，然后从高到低排序，最后我们得到什么查看最终搜索结果。

　　三、ranking

　　最后，举个例子作为结尾：

　　搜索引擎网页权重=网页词条基本权重+链接权重+用户评价权重

　　网页中术语的基本权重

　　1、比如搜索引擎环境中的某个关键词“搜索引擎”，权重应该是：WBT=W+W, (h1)+W,(b)=10+12＋4 =26

　　2、关键词“搜索引擎”也可能在文档的其他地方出现n次，每次出现可以计算为一个WBT1、WBT2、WBT3...WBTn，那么整个文档就可以被计算“搜索引擎”关键词的权重为：

　　wBT(关键词,webpage)=WBT,+ WBT,+…+WBTT=>wBT

　　相关排名-链接权重计算

　　相关排名-用户评价权重计算

　　....

　　计算最终重量

　　搜索引擎可以配置KWB、KWL、KWU来设置影响权重的重点因素。例如，如果搜索引擎将KWL设置为0.8，KWB和KWU都是0.1，那么搜索引擎更关注链接对权重的影响。通过该算法，您可以轻松调整算法。

　　本文链接：

0

2021-08-13

搜索引擎优化原理

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

《搜索引擎原理系列教程》之三个比较关心

0 个评论

发起人

AI时代内容工厂

《搜索引擎原理系列教程》之三个比较关心

0 个评论

发起人

相关问题