网页内容抽取,可提取互联网上99%以上的文章内容,智能识别包含的标题及正文内容
优采云 发布时间: 2021-08-26 19:02网页内容抽取,可提取互联网上99%以上的文章内容,智能识别包含的标题及正文内容
网页内容正文提取,可提取互联网上99%以上的文章内容,并智能识别收录的标题和正文内容。互联网上有近1000万个站点,每个站点都有N个不同的文章页面模板。您只需要访问我们的界面,无需担心编写采集文章内容规则。可以直接提取标题、关键词、摘要、正文内容。
标题:
文章标题
关键词:
文章关键词
总结:
文章摘要
内容:
文章内容
文章文本提取
文章文字识别
准确识别网页正文部分,提取的内容不会收录任何广告、导航等非正文内容。
内容格式转换
提取的内容可以转化为以下3种形式,默认为html形式:
懒惰的图像分析
支持懒惰的图片解析
解决目标网页内容使用图片延迟加载技术无法获取图片真实路径的问题。智能识别文本中的惰性图片,自动将图片地址解析为真实地址。如果目标网页中的图片路径是相对地址,也会自动识别绝对地址,保证图片的正常显示。对于一些无法识别的图片,将保留所有属性,方便开发者后期进行适配。
关键词 和文章 抽象提取
文章关键词
根据对采集文章的标题和内容的深入分析,输出可以在多个维度关键词(最多5核关键词)反映文章的关键信息。
文章核心摘要
结合传统语义特征和深度学习模型,充分考虑段落分布和章节结构,准确计算文章句子的重要性,对文章内容进行全面的语义理解和分析。自动从采集文章的文本中提取关键信息,然后生成指定长度的文章核心摘要。
● 如果您认为此功能对您的网站运营或公司有帮助,请加在线客服QQ并注明“api”,我们会拉您进群。
● 该功能目前处于试运行阶段,仅适用于新闻页面信息提取。如果目标网站不是news文章页面,也不是相册类型的文章,文本提取结果可能不符合预期。