网页抓取解密(基于网页粒度的网页分析算法(一)_本节书摘来自华章)

优采云 发布时间: 2022-03-30 17:25

  网页抓取解密(基于网页粒度的网页分析算法(一)_本节书摘来自华章)

  本节节选自华章出版社的《精通Python网络爬虫:核心技术、框架与项目》一书第3章第3.4节,作者魏伟。更多章节,您可以访问云奇社区查看“华章电脑”公众号。

  3.4网页分析算法

  在搜索引擎中,爬虫抓取到对应的网页后,会将网页存储在服务器的原创数据库中。之后,搜索引擎会对这些网页进行分析,确定每个网页的重要性,从而影响用户检索的排名。结果。

  所以在这里,我们需要对搜索引擎的网页分析算法有个简单的了解。

  搜索引擎的网页分析算法主要分为三类:基于用户行为的网页分析算法、基于网络拓扑的网页分析算法和基于网页内容的网页分析算法。接下来,我们将分别解释这些算法。

  1.基于用户行为的网页分析算法

  基于用户行为的网页分析算法很好理解。在该算法中,将根据用户对这些网页的访问行为对这些网页进行评估。例如,网页会根据用户访问网页的频率、用户访问网页的时间、用户的点击率等信息进行整合。评价。

  2.基于网络拓扑的网页分析算法

  基于网络拓扑的网页分析算法是通过网页的链接关系、结构关系、已知网页或数据等对网页进行分析的算法。所谓拓扑,简单来说就是结构关系。基于网络拓扑的网页分析算法还可以细分为三种:基于页面粒度的分析算法、基于页块粒度的分析算法和基于网站粒度的分析算法。

  PageRank算法是一种典型的基于网页粒度的分析算法。相信很多朋友都听说过Page-Rank算法。它是谷歌搜索引擎的核心算法。简单来说,它会根据网页之间的链接关系来计算网页的权重,并且可以依赖这些计算出来的权重。要排名的页面。当然,具体的算法细节还有很多,这里就不一一说明了。除了PageRank算法,HITS算法也是一种常见的基于网页粒度的分析算法。

  基于网页块粒度的分析算法也依赖网页之间的链接关系进行计算,但计算规则不同。我们知道一个网页通常收录多个超链接,但一般不是所有指向的外部链接都与网站主题相关,或者说这些外部链接对网页的重要性,因此,要根据网页块的粒度进行分析,需要将网页中的这些外部链接分层,不同层次的外部链接对网页的重要性程度不同。该算法的分析效率和准确性将优于传统算法。

  基于网站粒度的分析算法也类似于PageRank算法。但是,如果使用基于 网站 粒度的分析,则会相应地使用 SiteRank 算法。也就是这个时候,我们将站点的层级和层级进行划分,不再具体计算站点下每个网页的层级。因此,与基于网页粒度的算法相比,它更简单、更高效,但会带来一些缺点,例如精度不如基于网页粒度的分析算法准确。

  3.基于网页内容的网页分析算法

  在基于网页内容的网页分析算法中,会根据网页的数据、文本等网页内容特征对网页进行相应的评估。

  以上,我简单介绍了搜索引擎中的网页分析算法。我们在学习爬虫时需要对这些算法有相应的了解。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线