网页新闻抓取(《基于文本及符号密度的网页正文提取方法》(图))

优采云发布时间: 2021-12-11 04:24

　　GeneralNewsExtractor 是一款非常实用的新闻网页文本通用提取器。该软件不是基于爬虫的原理，而是基于《基于文本和符号密度的网页文本提取方法》一文的文本提取器。可以帮助用户快速提取网页的内容、标题和作者文章。适用于多个主流新闻资讯平台，目前测试中准确率100%，非常可观。

　　发展介绍

　　项目来源

　　本项目的发展源于CNKI上一篇关于自动提取新闻网站文本的算法论文——《基于文本和符号密度的网页文本提取方法》）

　　本文中描述的算法看起来简洁、清晰且合乎逻辑。但是因为论文只讲了算法原理，并没有具体的语言实现，所以我根据论文用Python实现了这个提取器。我们还分别使用了今日头条、网易新闻、友民之星、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻进行测试，发现提取效果非常好，几乎达到了100%的准确率。

　　项目状态

　　在论文中描述的文本提取的基础上，我添加了标题、发表时间、以及作者的自动检测和提取功能。

　　目前这个项目是一个非常非常早的Demo，发布是希望尽快得到大家的反馈，让我们的开发更有针对性。

　　本项目命名为extractor，而不是crawler，以避免不必要的风险。因此，本项目的输入是HTML，输出是字典。请使用适当的方法获取目标网站的HTML。

　　本项目目前没有，以后也不会提供主动请求网站 HTML的功能。

　　使用说明

　　一般只需将网页粘贴到顶部的多行文本框中，然后点击提取按钮即可。通过附加更多参数，可以使提取更加精确。

0

2021-12-11

网页新闻抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻抓取(《基于文本及符号密度的网页正文提取方法》(图))

0 个评论

发起人