百度网页关键字抓取(《搜索引擎原理系列教程》之三个比较关心)

优采云发布时间: 2022-04-02 20:20

　　《搜索引擎原理系列教程》虽然不是一本书，但由于里面信息量大、内容实用，也弥补了百度白皮书的一些不足——言出必行，值得鼓励说这个教程完全是一个民间SEO爱好者总结出来的，这种精神值得称道。

　　由于这本书一共8章，而且内容太多，就不一一介绍了，不过这里还是想讲三个方面，也是我们SEOER比较关心的三个方面：收录，索引，排名。

　　一、收录

　　收录其实是一个复杂的过程，简单的分为这四个步骤：

　　搜索引擎抓取网页

　　1、调度器是整个采集过程的核心。它在内部存储了一个访问过的 URL 库和一个未访问过的 URL 库，统称为 URL 库。一开始，调度器会从未访问的URL库中取出一个URL，分配给蜘蛛，这样蜘蛛就可以对没有被爬取的URL进行爬取。

　　2、当蜘蛛获取到 URL 时，它会发送一个请求来获取返回的 URL。流程为：对URL对应的域名进行DNS解析->获取Socket连接的IP->连接成功并发出http请求->接收网页信息。

　　3、蜘蛛获取网页信息后，会将源代码返回给调度器，调度器将源代码保存到网页数据库中。

　　4、调度器将从爬取的网页中提取链接，将未爬取的URL存储在未访问的URL库中，并将刚刚爬取的URL更新到已爬取的URL库中。

　　这将涉及重复数据删除

　　调度程序工作流

　　1、从未访问的 URL 表中取出 URL 并分配给每个蜘蛛。

　　2、蜘蛛获取URL，爬取，获取网页源代码，从源代码中提取URL，获取网页中收录的所有URL。

　　3、调度器依次检查获取到的URL是否存在于被访问的URL库中。如果存在，则表示已被抓取，则丢弃该URL；如果不存在，则说明该URL没有被爬取过，则按顺序添加到未访问过的URL列表中，等待之后再爬取。

　　4、重复步骤 1 直到未访问的表为空。

　　二、索引

　　网页预处理

　　1、索引原创页面。

　　2、对可搜索网页进行网页分割，将每个页面转换为一组单词。（前向指数）

　　3、将网页到索引词的映射转化为索引词到网页的映射形成倒排文件（包括倒排列表和索引词列表）

　　一般情况下，搜索引擎从网页数据库中获取网页，进行代码过滤，然后提取文本信息，然后切词。下一步是过滤关键词集合得到网页关键词正向索引，最后，搜索引擎将正向索引转换为网页的倒排索引。正是这项技术使得搜索引擎能够在1S内将搜索结果呈现给用户。

　　另外，搜索引擎执行的动作是对网页进行净化和去重。除去除网页中的噪声内容（如广告、版权等）外，提取网页的主题及相关内容，去除网页集合中的重复内容。

　　有同学可能会问，搜索引擎是如何识别主要内容的呢？实际上，该算法依赖于HTML标签树的建立和投票方式来识别正文。

　　例如，让我们设置规则，

　　1、如果文本块文本长度小于10个字，0分。10-50 字得 5 分。50-250字，8分。250字以上得10分。

　　2、文本块的文本位置在右边，0分。最高，3分。左边，5分。中间，10分。

　　然后我们得到页面TITLE得分为9，加粗的H1标签得分为8等，DIV部分的AD部分得分为0，被丢弃。

　　（以上示例仅供参考，与实际算法无关）

　　搜索引擎需要通过 3 个步骤来对网页进行重复数据删除。首先是特征提取（其中涉及到I-Match算法和Shingle算法），然后是相似度计算，评估它们是否相似，最后是去重。

　　实际上，搜索引擎算法与用户交互的过程就是一个查询过程。例如，当用户搜索“搜索引擎原理”时，算法分词后得到“搜索引擎”和“原理”。文档列表，找到交集，然后对用户查询和上一步找到的文档列表中的一条记录进行向量化，找到查询向量和文档向量的相似度，然后从高到低排序，最后我们看到最终的搜索结果。

　　以一个例子结束：

　　搜索引擎网页权重=网页中词条的基本权重+链接权重+用户评价权重

　　网页中术语的基本权重

　　1、例如一个关键词“搜索引擎”在

　　在搜索引擎环境下，权重应该是：WBT=W+W, (h1)+W,(b)=10+12+4=26

<p>2、关键词“搜索引擎”也可能在文档的其他地方出现n次，每次出现可以计算一个WBT

0

2022-04-02

百度网页关键字抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度网页关键字抓取(《搜索引擎原理系列教程》之三个比较关心)

0 个评论

发起人

AI时代内容工厂

百度网页关键字抓取(《搜索引擎原理系列教程》之三个比较关心)

0 个评论

发起人

相关问题