百度网页关键字抓取(《搜索引擎原理系列教程》之三个比较关心)
优采云 发布时间: 2022-04-02 20:20百度网页关键字抓取(《搜索引擎原理系列教程》之三个比较关心)
《搜索引擎原理系列教程》虽然不是一本书,但由于里面信息量大、内容实用,也弥补了百度白皮书的一些不足——言出必行,值得鼓励说这个教程完全是一个民间SEO爱好者总结出来的,这种精神值得称道。
由于这本书一共8章,而且内容太多,就不一一介绍了,不过这里还是想讲三个方面,也是我们SEOER比较关心的三个方面:收录,索引,排名。
一、收录
收录其实是一个复杂的过程,简单的分为这四个步骤:
搜索引擎抓取网页
1、 调度器是整个采集过程的核心。它在内部存储了一个访问过的 URL 库和一个未访问过的 URL 库,统称为 URL 库。一开始,调度器会从未访问的URL库中取出一个URL,分配给蜘蛛,这样蜘蛛就可以对没有被爬取的URL进行爬取。
2、 当蜘蛛获取到 URL 时,它会发送一个请求来获取返回的 URL。流程为:对URL对应的域名进行DNS解析->获取Socket连接的IP->连接成功并发出http请求->接收网页信息。
3、 蜘蛛获取网页信息后,会将源代码返回给调度器,调度器将源代码保存到网页数据库中。
4、 调度器将从爬取的网页中提取链接,将未爬取的URL存储在未访问的URL库中,并将刚刚爬取的URL更新到已爬取的URL库中。
这将涉及重复数据删除
调度程序工作流
1、从未访问的 URL 表中取出 URL 并分配给每个蜘蛛。
2、蜘蛛获取URL,爬取,获取网页源代码,从源代码中提取URL,获取网页中收录的所有URL。
3、调度器依次检查获取到的URL是否存在于被访问的URL库中。如果存在,则表示已被抓取,则丢弃该URL;如果不存在,则说明该URL没有被爬取过,则按顺序添加到未访问过的URL列表中,等待之后再爬取。
4、重复步骤 1 直到未访问的表为空。
二、索引
网页预处理
1、索引原创页面。
2、对可搜索网页进行网页分割,将每个页面转换为一组单词。(前向指数)
3、将网页到索引词的映射转化为索引词到网页的映射形成倒排文件(包括倒排列表和索引词列表)
一般情况下,搜索引擎从网页数据库中获取网页,进行代码过滤,然后提取文本信息,然后切词。下一步是过滤 关键词 集合得到网页 关键词 正向索引,最后,搜索引擎将正向索引转换为网页的倒排索引。正是这项技术使得搜索引擎能够在1S内将搜索结果呈现给用户。
另外,搜索引擎执行的动作是对网页进行净化和去重。除去除网页中的噪声内容(如广告、版权等)外,提取网页的主题及相关内容,去除网页集合中的重复内容。
有同学可能会问,搜索引擎是如何识别主要内容的呢?实际上,该算法依赖于HTML标签树的建立和投票方式来识别正文。
例如,让我们设置规则,
1、如果文本块文本长度小于10个字,0分。10-50 字得 5 分。50-250字,8分。250字以上得10分。
2、文本块的文本位置在右边,0分。最高,3分。左边,5分。中间,10分。
然后我们得到页面TITLE得分为9,加粗的H1标签得分为8等,DIV部分的AD部分得分为0,被丢弃。
(以上示例仅供参考,与实际算法无关)
搜索引擎需要通过 3 个步骤来对网页进行重复数据删除。首先是特征提取(其中涉及到I-Match算法和Shingle算法),然后是相似度计算,评估它们是否相似,最后是去重。
实际上,搜索引擎算法与用户交互的过程就是一个查询过程。例如,当用户搜索“搜索引擎原理”时,算法分词后得到“搜索引擎”和“原理”。文档列表,找到交集,然后对用户查询和上一步找到的文档列表中的一条记录进行向量化,找到查询向量和文档向量的相似度,然后从高到低排序,最后我们看到最终的搜索结果。
以一个例子结束:
搜索引擎网页权重=网页中词条的基本权重+链接权重+用户评价权重
网页中术语的基本权重
1、例如一个关键词“搜索引擎”在
在搜索引擎环境下,权重应该是:WBT=W+W, (h1)+W,(b)=10+12+4=26
<p>2、关键词“搜索引擎”也可能在文档的其他地方出现n次,每次出现可以计算一个WBT