抓取网页新闻(机器学习抽取的整体流程和结构分析标准（一）)

优采云发布时间: 2021-11-26 18:13

<p>节点。该节点下方的内容是信息抽取的数据区部分。论文将上一节中找到的正文节点的公共父节点记录为正文的命令节点。文本命令节点覆盖的文本信息可能收录非文本信息，如图片、视频等。由于图片或视频的说明文字通常与正文的字体不同，可以使用此功能进行更改图片及其描述文本被排除在外。通过这样的处理，可以提高文本信息的准确率。文本提取的整体流程如图4.5所示。开始构建DOM树，过滤传入文本的样式节点，遍历DOM树，寻找TEXT_NODE文本节点，根据文本节点的权重W选择标准文本节点，比较其他文本节点与该节点的链接信息。是否满足设置阈值是否与标准文本节点的样式相同作为正文信息候选集遍历所有文本节点，找到所有候选集的公共父节点，提取所有文本