网页抓取数据百度百科(网页抽取效果指标:比赛数据集P=97.87%R )

优采云发布时间: 2021-09-11 02:12

　　网页抓取数据百度百科(网页抽取效果指标:比赛数据集P=97.87%R

)

　　网页正文提取项目ContentExtractor已集成到WebCollector中进行维护。

　　WebCollector 的 body 提取 API 都封装为 ContentExtractor 类的静态方法。您可以提取结构化新闻，也可以仅提取网页的文本（或文本所在的元素）。

　　文字提取效果指数：

　　CleanEval P=93.79% R=86.02% F=86.72%

　　共同新闻网站数据集 P=97.87% R=94.26% F=95.33%

　　算法忽略语言，适用于各种语言的网页。

　　标题提取和日期提取使用简单的启发式算法。它们未在标准数据集（如文本提取算法）上进行测试。算法还在更新中。

　　如何调用：

　　News news = ContentExtractor.getNewsByHtml(html, url);

News news = ContentExtractor.getNewsByHtml(html);

News news = ContentExtractor.getNewsByUrl(url);

String content = ContentExtractor.getContentByHtml(html, url);

String content = ContentExtractor.getContentByHtml(html);

String content = ContentExtractor.getContentByUrl(url);

Element contentElement = ContentExtractor.getContentElementByHtml(html, url);

Element contentElement = ContentExtractor.getContentElementByHtml(html);

Element contentElement = ContentExtractor.getContentElementByUrl(url);

　　在线产品选择网页正文提取算法时，必须在大量数据集上测试提取算法的Precision、Recall和F值。这三个值是评价网页提取效果的标准特征。

　　用肉眼测试算法不是一个好的选择。无论是来自 Github 还是论文，都很难找到一种 100% 准确率的网页正文提取算法。在线产品使用网页正文提取算法。每个算法都会在某些页面上失败。用肉眼判断算法很容易漏掉一个好的算法，很容易把一个垃圾算法误判为一个好的算法。

　　CleanEval 是从网页正文中提取的标准比赛数据集。可以参考其官方文档：

　　但是CleanEval中的网页大部分都是早期的网页，与现在的网页风格相差甚远。所以，除了CleanEval，一般需要准备20个类似自己业务的网站。例如，如果您的业务是提取百科网站网页的正文信息，则应使用维基百科和百度百科的网站数据作为测试数据集。文本提取算法的覆盖范围通常是有限的。许多著名的算法只能有效地提取新闻网页的文本。对网站如百科、博客的提取效果很差。

　　通过捐赠支持 WebCollector

　　维护 WebCollector 和教程需要花费大量时间和精力。如果您喜欢 WebCollector，欢迎您通过捐款支持开发者的工作。非常感谢！

　　您可以使用支付宝钱包扫描下方二维码进行捐款，或将资金转入您的支付宝账户 [emailprotected] 进行捐款。

0

2021-09-11

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据百度百科(网页抽取效果指标:比赛数据集P=97.87%R )

0 个评论

发起人

AI时代内容工厂

网页抓取数据百度百科(网页抽取效果指标:比赛数据集P=97.87%R )

0 个评论

发起人

相关问题