网页flash文本抓取器(基于自然语言处理和网页结构分析的新颖提取方法(组图))

优采云 发布时间: 2022-03-02 05:13

  网页flash文本抓取器(基于自然语言处理和网页结构分析的新颖提取方法(组图))

  【摘要】:HTML文档中的锚文本及其相关上下文往往收录链接到页面主题的“简洁”但“精确”的语义线索。通常合理的假设是,这些线索通常足以指导页面的内容。人类观众打开链接指向的页面。毫不奇怪,这些链接上下文相关的文本自万维网诞生以来就得到了很好的利用。例如,谷歌搜索引擎使用锚文本来索引 URL;在 CLEVER 主题编辑系统中,超链接根据其上下文文本和搜索词的相关性被赋予权重,以缓解 HITS 算法中“主题偏差”的难度;一些研究人员讨论了使用这些相关文本来辅助甚至替换网页本身的内容,以实现网页的自动分类。在访问链接指向的目标页面的成本太高的情况下,必须充分优化利用链接的上下文相关文本,这就是“主题爬行”所面临的问题,其成功取决于对这些源页面。目标页面的相关文本信息尽可能准确地预测目标页面的主题相关性。尽管有这些重要的价值,但关于如何准确提取链接上下文相关文本的研究尚未得到充分讨论,目前最好的提取方法依赖于过度简化的启发式方法,或各种任意指定的数学参数。锚文本看似是语义信息的可靠来源,但其过短的特性阻碍了信息检索的高“召回率”,完全依赖锚文本甚至会降低检索性能,这一点已被一些研究人员证实。除了锚文本,锚标签左右的相邻文本被认为是链接上下文相关文本的另一个重要来源。然而,这些文本往往收录巨大的噪声,而这些低质量的文本通常会进一步降低提取文本的相关性。本文提出了一种基于自然语言处理和网页结构分析的新型提取方法。我们认为,像英语语义分析这样的自然语言处理工具可以帮助过滤掉不相关或嘈杂的文本,同时提取高质量的相关文本,以实现对人类浏览行为的“细粒度”模仿。初步实验结果表明,我们提出的方法与其他方法相比具有很大的优势。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线