抓取网页新闻(GeneralNewsExtractor新闻网页通用抽取器是一个基于《基于文本及符号密度的网页正文提取方法》)
优采云 发布时间: 2021-10-11 17:36抓取网页新闻(GeneralNewsExtractor新闻网页通用抽取器是一个基于《基于文本及符号密度的网页正文提取方法》)
GeneralNewsExtractor 新闻网页正文通用提取器是基于《基于文本和符号密度的网页正文提取方法》用Python实现的文本提取器。它可用于提取 HTML 中文本的内容、作者和标题。
相关软件软件大小版本说明下载地址
GeneralNewsExtractor(新闻网页文本通用提取器)是基于《基于文本和符号密度提取网页文本的方法》用Python实现的文本提取器。它可用于提取 HTML 中文本的内容、作者和标题。
发展介绍
项目来源
这个项目的发展源于我在知网找到的一篇关于自动提取新闻网站文本的算法论文——《基于文本和符号密度的网页文本提取方法》)
本文中描述的算法看起来简洁、清晰且合乎逻辑。但是因为论文只讲了算法的原理,并没有具体的语言实现,所以我按照论文用Python实现了这个提取器。我们还使用了今日头条、网易新闻、友民之星、观察家、凤凰网、腾讯新闻、ReadHub、新浪新闻对结果进行了测试,发现提取效果非常好,几乎100%的准确率。
项目状态
在论文中描述的文本提取的基础上,我添加了标题、发表时间和作者的自动检测提取功能。
目前,这个项目是一个非常非常早期的Demo。发布是希望我们能尽快得到大家的反馈,让我们的开发更有针对性。
本项目命名为extractor,而不是crawler,以避免不必要的风险。因此,本项目的输入是HTML,输出是字典。请使用合适的方法获取目标网站的HTML。
本项目目前没有,以后也不会提供主动请求网站 HTML的功能。