网页flash文本抓取器(基于自然语言处理和网页结构分析的新颖提取方法(组图))
优采云 发布时间: 2021-11-08 09:26网页flash文本抓取器(基于自然语言处理和网页结构分析的新颖提取方法(组图))
[摘要]:HTML 文件中的锚文本及其相关上下文通常收录链接到页面主题的“简洁”但“精确”的语义线索。这通常是一个合理的假设。这些线索通常足以指导网页。人类查看者打开链接指向的页面。毫不奇怪,自从万维网诞生以来,这些链接上下文相关的文本就被充分利用了。例如,谷歌搜索引擎使用锚文本来索引 URL;在CLEVER主题编辑系统中,超链接根据其上下文相关文本和搜索词的相关性被赋予权重,以减轻HITS算法中“主题偏差”的难度;一些研究人员已经探索了使用这些相关文本来辅助甚至替换网页内容本身以实现网页的自动分类。当访问链接指向的目标页面的成本太高时,必须充分利用这些链接的上下文相关文本。这就是“主题爬行”面临的问题,它的成功取决于传递这些源页面。相关文本信息尽可能准确地预测目标页面的主题相关性。尽管有这些重要的价值,但关于如何准确提取链接上下文相关文本的研究尚未得到充分讨论。目前最好的提取方法依赖于过度简化的启发式方法或依赖于各种任意数学参数。锚文本似乎是语义信息的可靠来源,但其过短的特征阻碍了信息检索的高“召回率”,完全依赖锚文本甚至会降低检索性能。这一现象已被一些研究人员证实。除了锚文本之外,锚标签左右两侧的相邻文本被认为是链接上下文相关文本的另一个重要来源。但是,这些文本通常收录很多噪音。与锚文本相比,这些低质量的文本通常会进一步降低提取文本的相关性。本文提出了一种基于自然语言处理和网页结构分析的新型提取方法。我们相信英语语义解析等自然语言处理工具有助于过滤掉不相关或嘈杂的文本,同时提取高质量的相关文本,实现对人类浏览器浏览行为的“细粒度”模仿。初步实验结果表明,我们提出的方法比其他方法具有更大的优势。