网页抓取数据百度百科(网页抽取效果指标:比赛数据集P=97.87%R )

优采云 发布时间: 2021-09-11 02:12

  网页抓取数据百度百科(网页抽取效果指标:比赛数据集P=97.87%R

)

  网页正文提取项目ContentExtractor已集成到WebCollector中进行维护。

  WebCollector 的 body 提取 API 都封装为 ContentExtractor 类的静态方法。您可以提取结构化新闻,也可以仅提取网页的文本(或文本所在的元素)。

  文字提取效果指数:

  CleanEval P=93.79% R=86.02% F=86.72%

  共同新闻网站数据集 P=97.87% R=94.26% F=95.33%

  算法忽略语言,适用于各种语言的网页。

  标题提取和日期提取使用简单的启发式算法。它们未在标准数据集(如文本提取算法)上进行测试。算法还在更新中。

  如何调用:

  News news = ContentExtractor.getNewsByHtml(html, url);

News news = ContentExtractor.getNewsByHtml(html);

News news = ContentExtractor.getNewsByUrl(url);

String content = ContentExtractor.getContentByHtml(html, url);

String content = ContentExtractor.getContentByHtml(html);

String content = ContentExtractor.getContentByUrl(url);

Element contentElement = ContentExtractor.getContentElementByHtml(html, url);

Element contentElement = ContentExtractor.getContentElementByHtml(html);

Element contentElement = ContentExtractor.getContentElementByUrl(url);

  在线产品选择网页正文提取算法时,必须在大量数据集上测试提取算法的Precision、Recall和F值。这三个值是评价网页提取效果的标准特征。

  用肉眼测试算法不是一个好的选择。无论是来自 Github 还是论文,都很难找到一种 100% 准确率的网页正文提取算法。在线产品使用网页正文提取算法。每个算法都会在某些页面上失败。用肉眼判断算法很容易漏掉一个好的算法,很容易把一个垃圾算法误判为一个好的算法。

  CleanEval 是从网页正文中提取的标准比赛数据集。可以参考其官方文档:

  但是CleanEval中的网页大部分都是早期的网页,与现在的网页风格相差甚远。所以,除了CleanEval,一般需要准备20个类似自己业务的网站。例如,如果您的业务是提取百科网站网页的正文信息,则应使用维基百科和百度百科的网站数据作为测试数据集。文本提取算法的覆盖范围通常是有限的。许多著名的算法只能有效地提取新闻网页的文本。对网站如百科、博客的提取效果很差。

  通过捐赠支持 WebCollector

  维护 WebCollector 和教程需要花费大量时间和精力。如果您喜欢 WebCollector,欢迎您通过捐款支持开发者的工作。非常感谢!

  您可以使用支付宝钱包扫描下方二维码进行捐款,或将资金转入您的支付宝账户 [emailprotected] 进行捐款。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线