网页抓取数据百度百科(网页抽取效果指标:比赛数据集P=97.87%R )
优采云 发布时间: 2021-09-11 02:12网页抓取数据百度百科(网页抽取效果指标:比赛数据集P=97.87%R
)
网页正文提取项目ContentExtractor已集成到WebCollector中进行维护。
WebCollector 的 body 提取 API 都封装为 ContentExtractor 类的静态方法。您可以提取结构化新闻,也可以仅提取网页的文本(或文本所在的元素)。
文字提取效果指数:
CleanEval P=93.79% R=86.02% F=86.72%
共同新闻网站数据集 P=97.87% R=94.26% F=95.33%
算法忽略语言,适用于各种语言的网页。
标题提取和日期提取使用简单的启发式算法。它们未在标准数据集(如文本提取算法)上进行测试。算法还在更新中。
如何调用:
News news = ContentExtractor.getNewsByHtml(html, url);
News news = ContentExtractor.getNewsByHtml(html);
News news = ContentExtractor.getNewsByUrl(url);
String content = ContentExtractor.getContentByHtml(html, url);
String content = ContentExtractor.getContentByHtml(html);
String content = ContentExtractor.getContentByUrl(url);
Element contentElement = ContentExtractor.getContentElementByHtml(html, url);
Element contentElement = ContentExtractor.getContentElementByHtml(html);
Element contentElement = ContentExtractor.getContentElementByUrl(url);
在线产品选择网页正文提取算法时,必须在大量数据集上测试提取算法的Precision、Recall和F值。这三个值是评价网页提取效果的标准特征。
用肉眼测试算法不是一个好的选择。无论是来自 Github 还是论文,都很难找到一种 100% 准确率的网页正文提取算法。在线产品使用网页正文提取算法。每个算法都会在某些页面上失败。用肉眼判断算法很容易漏掉一个好的算法,很容易把一个垃圾算法误判为一个好的算法。
CleanEval 是从网页正文中提取的标准比赛数据集。可以参考其官方文档:
但是CleanEval中的网页大部分都是早期的网页,与现在的网页风格相差甚远。所以,除了CleanEval,一般需要准备20个类似自己业务的网站。例如,如果您的业务是提取百科网站网页的正文信息,则应使用维基百科和百度百科的网站数据作为测试数据集。文本提取算法的覆盖范围通常是有限的。许多著名的算法只能有效地提取新闻网页的文本。对网站如百科、博客的提取效果很差。
通过捐赠支持 WebCollector
维护 WebCollector 和教程需要花费大量时间和精力。如果您喜欢 WebCollector,欢迎您通过捐款支持开发者的工作。非常感谢!
您可以使用支付宝钱包扫描下方二维码进行捐款,或将资金转入您的支付宝账户 [emailprotected] 进行捐款。