网页新闻抓取(《基于文本及符号密度的网页正文提取方法》(图))
优采云 发布时间: 2021-12-11 04:24网页新闻抓取(《基于文本及符号密度的网页正文提取方法》(图))
GeneralNewsExtractor 是一款非常实用的新闻网页文本通用提取器。该软件不是基于爬虫的原理,而是基于《基于文本和符号密度的网页文本提取方法》一文的文本提取器。可以帮助用户快速提取网页的内容、标题和作者文章。适用于多个主流新闻资讯平台,目前测试中准确率100%,非常可观。
发展介绍
项目来源
本项目的发展源于CNKI上一篇关于自动提取新闻网站文本的算法论文——《基于文本和符号密度的网页文本提取方法》)
本文中描述的算法看起来简洁、清晰且合乎逻辑。但是因为论文只讲了算法原理,并没有具体的语言实现,所以我根据论文用Python实现了这个提取器。我们还分别使用了今日头条、网易新闻、友民之星、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻进行测试,发现提取效果非常好,几乎达到了100%的准确率。
项目状态
在论文中描述的文本提取的基础上,我添加了标题、发表时间、以及作者的自动检测和提取功能。
目前这个项目是一个非常非常早的Demo,发布是希望尽快得到大家的反馈,让我们的开发更有针对性。
本项目命名为extractor,而不是crawler,以避免不必要的风险。因此,本项目的输入是HTML,输出是字典。请使用适当的方法获取目标网站的HTML。
本项目目前没有,以后也不会提供主动请求网站 HTML的功能。
使用说明
一般只需将网页粘贴到顶部的多行文本框中,然后点击提取按钮即可。通过附加更多参数,可以使提取更加精确。