智能采集组合文章(基于WEB智能信息采集及处理系统研究(图))
优采云 发布时间: 2021-11-29 14:01智能采集组合文章(基于WEB智能信息采集及处理系统研究(图))
基于WEB智能信息采集及处理系统研究综述:本文研究的基于WEB智能信息采集及处理系统,一方面采用高效的URL去重和基于模板的下载机制,大大提高了采集 Web 资源的性能;另一方面,应用成熟先进的自然语言处理技术对采集信息进行智能分类汇总。关键词:网页采集;URL重复数据删除;智能信息处理;个性化出版 1 引言 自万维网诞生以来,网络信息的搜索正从“平面”走向“垂直”,从“通用”“发展”到“个性智能”。据调查,目前市场上大部分搜索工具或产品都存在“相关采集而忽略信息处理和服务”,即对采集的信息缺乏深入的处理和处理,提供主动信息发布服务机制。经过十多年的市场培育,网络用户最需要的是提供信息采集,加工发布面向某一领域、智能化程度更高的产品。本文将构建并实现这样一个系统。2 系统架构 该系统由三个子系统组成,即Web信息采集子系统、信息智能处理子系统和信息发布子系统。这三个子系统可以单独部署和运行,或者整个过程可以自动化采集,智能处理,通过接口文件主动发布。整体架构如图1所示。 2.1 整体系统架构 该系统架构不仅适合大用户采集的分布式部署、处理需求,也适合单机的需求。用户集中部署。
当用户只需要某个子系统时,只需对接口文件稍作配置即可满足不同用户的需求。2.2 Web信息采集Subsystem Web采集器一般从一个叫做seed的URL开始,通过协议扩展到Web上其他需要的页面。研究表明,Web 上 30% 的页面是重复的。当面对特定主题时,80% 以上的 URL 链接不是我们关心的。因此,如何在采集中进行URL去重和分析以适应主题特征URL是提高采集子系统效率的重要因素。同时,如何获取有效的网页信息,过滤掉广告、导航栏等噪音,将直接影响后续智能处理的性能。该子系统的流程如图2所示。不同于一般的Web信息采集器,该子系统最大的特点是任何用户的主题采集都是在相应模板的支持下完成的。所谓模板就是将Web对象的特征描述为采集。为了提高下载的有效性和效率,将特定网站的所有网页分为Hub页面和Topic页面,用A三元组表示。其中,M表征网页的共同特征,如:网站名称、网站 URL地址、语言类型等;hf表征web资源中的Hub页面特征,即该类Web中哪些URL地址特征是下载时需要解析的;
为了监控下载的Web资源,及时向用户推送最新信息,触发器可以指定适合用户需求的采集策略,并通过设置一定的时间间隔来激活下载机器人,”检查“是否有最新信息。2.3 信息智能处理子系统。该系统使用机器学习来预先构建用户感兴趣的内容分类器。当用户完成某项下载任务时,会发送消息激活处理子系统,系统会自动处理下载的内容。内容,包括自动分类、自动摘要和元数据分析,如创建正文标题、关键字和分析作者等。系统流程如图3所示。传统的Web信息采集不具备对下载信息进行深度处理的能力,该系统不仅实现了机器的自动分类、汇总和元数据分析,还提供了一种人机交互机制,处理结果以方便的预览方式呈现,用户确认后可以修改、删除、存储信息,保证发布信息的正确性和有效性。2.4 信息发布子系统近年来以信息发布的形式受到越来越多的关注。作为对外信息服务的平台,该子系统的主要特点是:采集信息的多视图、多层次的发布,即,来源、原栏目、分类体系等多角度交叉展示,可灵活进行信息采集的交叉组合;个性化信息发布,用户登录后,使用个性化信息自定义界面,选择自己感兴趣的信息视角,再次登录后,向用户推送完全个性化的信息内容;强大的信息检索能力,不仅提供独立领域的检索,还提供快速检索、高级表达检索和全文检索。使用个性化信息自定义界面,选择自己感兴趣的信息视角,再次登录后,将完全个性化的信息内容推送给用户;强大的信息检索能力,不仅提供独立领域的检索,还提供快速检索、高级表达检索和全文检索。使用个性化信息自定义界面,选择自己感兴趣的信息视角,再次登录后,将完全个性化的信息内容推送给用户;强大的信息检索能力,不仅提供独立领域的检索,还提供快速检索、高级表达检索和全文检索。
3 几个关键技术3.1 URL 重复数据删除 常规的URL 重复数据删除有两种解决方案。一种是将所有的URL地址存储在数据库中,索引后使用数据库搜索判断该URL是否被重复下载;二是利用文件存储,通过一定的转换来转换URL,同时建立基于文件的搜索索引。这两种方法的缺点是显而易见的。例如,大约有 4 亿个中文网页。假设每个 URL 的平均长度为 25 个字符,那么存储这些网页的 URL 地址所需的空间约为 8G。显然面对如此庞大的这种机制,无法快速进行URL搜索,因此无法保证快速下载和去重。在这个系统中,采用文件目录寻址机制,实现URL的快速去重。基本思路是先将URL地址转换为CRC32,生成唯一的4字节32位编码,如:E8CA0B3F。这4个字节构成了一个二级目录和一个一级文件,即第一个字节的第一个字符。作为一级目录名,使用二、的三字符组合作为二级目录名,将三、的四字符组合存储在二级目录中作为文件名。每个文件的大小固定为4K,其余三个字符共12位,一共有4096个二进制数,正好对应4K的文件大小。这个机制可以容纳的总页数是232,大约43亿,它可以包括 Internet 上几乎所有的 URL 链接。3.2 HTML解析为了提高下载页面的有效性,需要过滤掉一些无用的噪音信息。
传统上,有两种解决方案。一种是通过页面学习方法提取熵最大的页面段[1];另一种是通过定义访问路径提取需要访问的感兴趣的内容。无论是哪种方案,都必须具备解析页面HTML的能力,即构造合适的数据结构来解析HTML标签。解析的难点在于当前网页的HTML非常不规则,不严谨。即使标签之间存在错误或不严格匹配,IE 也可以完美呈现。但是,为了准确提取信息,必须构建严格的访问结构。3. 3自动摘要和元数据分析摘要是指通过对文档内容进行处理,提取出满足用户需求的重要信息,经过重组和修改后生成比原文更精炼的摘要的过程。目前,自动抽象技术主要有三种类型:基于浅层分析的方法、基于实体分析的方法和基于语篇结构的方法。本系统采用全新的自动摘要系统,利用自然语言处理(NLP)技术,通过结合基于内容的方法【基于内容】和基于主题的(基于主题)的方法,将主题和内容结合起来生成摘要具有良好的连贯性和流畅性。基本思想是先分析主题词,动态处理具有抽象和特定标题的文档;然后利用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深度分析;根据两次分析结果的线性加权融合,生成汇总;最后通过Anaphora Resolution Technology对生成的摘要进行平滑处理,使生成的摘要更加连贯流畅。
上述摘要生成算法中,一些元数据,如题名分析、作者提取、主题词等,也会作为中间结果输出保存,形成一个完整的元数据体系,符合基本文件规范。结论 基于Web的信息采集和处理技术将在互联网高速发展的时代发挥越来越重要的作用。本文设计和实现的系统继承和发展了现有的扁平化信息采集策略,以“信息采集、组织处理和发布”三项并重的理念,使面向Web的信息化采集 系统向垂直化、智能化方向的推进,也预示着该系统具有广阔的市场和应用前景。参考文献 [1] 尹存艳.戴新宇.陈家军.网上课文自动摘要.计算机工程.Vol.32.No.3.Feb.. 2006.88- 9 0.