python网页数据抓取(N-Gram(有时也称为N元模型)(组图) )
优采云 发布时间: 2021-10-24 07:03python网页数据抓取(N-Gram(有时也称为N元模型)(组图)
)
N-Gram
N-Gram(有时也称为 N-gram 模型)是自然语言处理中一个非常重要的概念。通常在 NLP 中,人们可以使用 N-Gram 根据一定的语料库来预测或评估一个句子是否合理。另一方面,N-Gram 的另一个功能是评估两个字符串之间的差异程度。这是模糊匹配中常用的方法。
美汤
简单来说,Beautiful Soup是一个python库,主要功能是抓取网页数据。官方解释如下:
Beautiful Soup 提供了一些简单的、python 风格的函数来处理导航、搜索、修改分析树和其他功能。它是一个工具箱,为用户提供需要通过解析文档来捕获的数据。由于其简单性,无需太多代码即可编写完整的应用程序。
Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档为 utf-8 编码。不需要考虑编码方式,除非文档没有指定编码方式,此时Beautiful Soup无法自动识别编码方式。然后,您只需要解释原创编码方法。
Beautiful Soup 已成为与 lxml 和 html6lib 一样优秀的 Python 解释器,灵活地为用户提供不同的解析策略或强大的速度。
实战
下面的Python程序通过从网页中抓取一段文章,然后根据这个文章生成一个新的文章,其原理是基于概率的文本分析统计数据。小编为大家推荐一个学习交流群:708214004,群里有的人都快满了~遇到任何问题都可以交流!是个学习交流的好地方~如果你想从索欧进~各种PDF等你下载,全部免费,只为帮你快速上手。
过程大概是网络爬取数据->统计分析->生成新的文章。网页抓取数据就是通过BeautifulSoup库抓取网页上的文字内容。统计分析首先需要使用ngram模型对文章进行分段并统计频数。因为文章的生成主要是基于马尔可夫模型,所以使用了2-gram,这样可以统计一个词一个接一个出现的概率。new 文章 的生成基于对大量随机事件进行分析的马尔可夫模型。随机事件的特点是在一个离散事件发生后,在前一个事件的条件下,另一个离散事件会以一定的概率发生。