网页新闻抓取(《基于文本及符号密度的网页正文提取方法》(图))

优采云 发布时间: 2021-12-11 04:24

  网页新闻抓取(《基于文本及符号密度的网页正文提取方法》(图))

  GeneralNewsExtractor 是一款非常实用的新闻网页文本通用提取器。该软件不是基于爬虫的原理,而是基于《基于文本和符号密度的网页文本提取方法》一文的文本提取器。可以帮助用户快速提取网页的内容、标题和作者文章。适用于多个主流新闻资讯平台,目前测试中准确率100%,非常可观。

  

  发展介绍

  项目来源

  本项目的发展源于CNKI上一篇关于自动提取新闻网站文本的算法论文——《基于文本和符号密度的网页文本提取方法》)

  本文中描述的算法看起来简洁、清晰且合乎逻辑。但是因为论文只讲了算法原理,并没有具体的语言实现,所以我根据论文用Python实现了这个提取器。我们还分别使用了今日头条、网易新闻、友民之星、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻进行测试,发现提取效果非常好,几乎达到了100%的准确率。

  项目状态

  在论文中描述的文本提取的基础上,我添加了标题、发表时间、以及作者的自动检测和提取功能。

  目前这个项目是一个非常非常早的Demo,发布是希望尽快得到大家的反馈,让我们的开发更有针对性。

  本项目命名为extractor,而不是crawler,以避免不必要的风险。因此,本项目的输入是HTML,输出是字典。请使用适当的方法获取目标网站的HTML。

  本项目目前没有,以后也不会提供主动请求网站 HTML的功能。

  使用说明

  一般只需将网页粘贴到顶部的多行文本框中,然后点击提取按钮即可。通过附加更多参数,可以使提取更加精确。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线