(【知识点】企业信息门户搜索引擎技术的研究与应用)
优采云 发布时间: 2022-01-31 17:04(【知识点】企业信息门户搜索引擎技术的研究与应用)
1 企业信息门户搜索引擎技术研究 112 詹颖,冯书文,李义伟(1.自动化研究所,甘肃兰州730060;2.,新疆克拉玛依834002) 摘要:企业信息门户(EIP)是企业信息系统的应用框架,将各种应用系统、数据资源和互联网资源整合成一个信息管理平台,提供给用户。面对门户建设中数据积累增多、数据信息分散的问题,通过引入企业信息门户搜索引擎技术,提供快速高效的检索功能,有效整合企业信息资源,提高企业信息资源的有效利用。和访问。进一步加强企业门户系统的建设和应用,提高了企业的决策水平和信息披露效率。关键词:企业信息门户;搜索引擎; 数据采集; 信息搜索;分类; 企业信息门户搜索引擎聚类研究112詹莹,冯树文,李义伟 (1.兰州石化公司自动化研究所, 兰州 730060;2.中石油新疆油田分公司油气储运分公司, 新疆, 克拉玛依, 834002) 摘要:EIP 是企业信息系统的应用框架。它为用户提供了一个集成各种应用系统、数据和网络的平台。
EIP提供对企业各种内外部信息的访问,协助企业改进决策和优化生产运营。面对门户建设中积累的海量数据,以及门户技术本身造成的信息无法有效分析、缺乏统一规范、扩展性差等问题,提供快速高效的检索功能成为企业亟待解决的问题信息门户有待解决。由于信息冗余量大、搜索深度不够、搜索准确度差、海量信息混乱等问题,一般的搜索引擎无法满足企业对搜索结果的准确性和信息及时更新的要求。 . 所以,企业信息门户的信息检索不宜直接使用通用搜索引擎。需要结合企业自身的特点和需求,开发专门的企业信息门户搜索引擎(Enterprise Information Portal Search Engine)。1.企业信息门户对搜索引擎的需求 通过企业门户搜索引擎和互联网搜索引擎的对比,结合公司自身特点,提出企业信息门户对搜索引擎的需求。互联网搜索企业门户搜索第一作者:詹莹,女,1981年1月出生,2007年毕业于南京邮电大学,现为自动化学院助理工程师,主要从事计算机技术及软件开发工作。E-mail:2信息采集采集模式:被动模式采集模式:主动模式采集深度:要求不高采集深度:高动态web优先pages 采集:低动态网页采集优先级:低结构化数据库信息采集:需要低结构化数据库信息采集:对信息处理要求高网页元数据提取:低要求 网页元数据抽取:高要求 结构化信息抽取:低要求 结构化信息抽取:低要求 排序和分类:低要求 排序和排序:高要求 信息检索 检索方法:
@2.1 EIPSE的设计原则是标准化的:遵循技术标准化、结构标准化、数据标准化等相关要求 开放性:系统在系统结构、硬件产品、软件产品、数据交换方面协议等,充分利用开放平台,保证系统具有良好的互操作性和可移植性。可扩展性:软硬件配置具有动态平滑扩展的能力,可以通过调整系统框架和相应的服务单元进行调整。配置,适应业务量变化。系统架构基于开放安全的应用支撑架构,具有良好的可扩展性。技术进步和成熟度:采用先进成熟的技术来满足系统的生命周期。具有持续的可维护性和可扩展性,获得更高的发展起点。 安全性:充分考虑系统安全性设计,保证数据备份、应用流程、权限管理等环节的安全性。
在设计系统结构时,各级都充分考虑了系统的冗余配置和容灾。可管理性:采用合理的系统架构,实现对系统的集中管理和监控。2.2 EIPSE架构设计智能内容搜索服务平台建立在智能数据处理层(Intelligent Data Operating Layer,IDOL)之上,其核心是基于唯一信息论和概率论的模式识别. 提取概念和内容挖掘技术后,为周边提供多种搜索应用服务。因此,系统的整体架构是根据实际应用流程来实现的,即从数据采集和处理三个层次,索引与分析、应用与发布,设计结构如下图所示: 3图1系统架构图2.3 EIPSE的功能设计为了充分实现该企业信息门户强大的搜索功能,整个系统主要实现数据采集的管理、信息搜索、分类、聚类、个性化、自动关联和局部可视化等功能。2.3.1.数据采集平台数据采集平台是整个系统的基础,是系统对外提供内容服务的源泉,主要来自各种数据源(包括文件系统、数据库、其他内部系统和独立的信息源)采集信息。针对不同的数据格式,采用不同的方式将各个数据岛采集的信息带过来,用于资源平台的整合和使用。如下图所示: 图2 数据采集 2.3.2. 信息搜索 信息搜索包括关键字搜索、标准搜索、高级搜索、联合搜索、参数搜索、自动摘要等功能。
参数化搜索可以实现对各种元数据的统计和分析,可以以条形图、饼图、折线图等图形的形式输出,让用户实时了解搜索对象的量化特征。同时,系统可以根据每个文章中的主要概念自动生成摘要。并根据用户的浏览内容或检索情况,动态生成变化汇总,以便用户通过汇总判断是否需要信息。2.3.3. 信息分类信息分类实现了自动分类,准确分类非结构化文本中的概念。自动分类就是根据一些分类标准,对一定范围的信息内容生成分类树。根据不同的分类主题,用户可以点击相关的分类树节点查看结果。该自动分类方法克服了人工分类信息检索不完整、更新速度慢的缺点,提高了用户的检索速度和检索准确率。4 2.3.4.信息聚类 用户在使用搜索引擎时,会得到一个由大量返回信息组成的线性表,其中很大一部分无关与用户的查询请求。聚类可以使与用户搜索结果相关的信息更接近。通过自动分析来自采集的所有信息内容,将相似的文档聚集在一起,自动生成类别的标题,以各种可视化的方式提供给用户,用户可以选择浏览。2.3.5.个性化这里的个性化服务主要包括个性化订阅、自动提示、推送通知等功能。通过设置用户感兴趣的内容范围和条件,系统根据用户设置的主题提供内容服务。3.5.个性化这里的个性化服务主要包括个性化订阅、自动提示、推送通知等功能。通过设置用户感兴趣的内容范围和条件,系统根据用户设置的主题提供内容服务。3.5.个性化这里的个性化服务主要包括个性化订阅、自动提示、推送通知等功能。通过设置用户感兴趣的内容范围和条件,系统根据用户设置的主题提供内容服务。
同时,系统可以自动维护用户档案。一旦发现符合用户要求的新信息,可自动保存到用户的文件夹中,或通过短信、邮件等方式提示用户。2.3.6. 模块监控管理 模块监控管理系统为内容搜索的各个模块提供重点维护、管理、控制和监控功能。内容服务(例如连接器、DIH、DAH 等)进行通信。同时,模块监控系统还提供可视化的整体面板,让内容管理员可以在本地或远程管理所有的内容模块(或服务)操作,并提供可视化的参数管理、参数配置、模块监控和状态报告。< @3.结束语 本文以某炼化企业正在实施的门户搜索引擎技术为主要研究内容。通过对现有搜索引擎技术的简单分析,结合企业实际需求和自身特点,企业目前采用搜索引擎技术。门户搜索技术深入研究。研究表明,企业信息门户使用的通用搜索引擎存在诸多缺陷和不足。只有为门户搜索开发的搜索引擎才具有更好的灵活性和扩展性,以满足企业信息化发展的需要。参考文献 [1] 周翔,王丽芳,江泽军.基于Lucene的企业信息门户搜索引擎设计[J].微机加工,2009(4):62-64 [2]李艳,陈新忠,杨炳儒.基于Web挖掘的智能门户搜索引擎研究[J].计算机工程与应用,2002(4):34-36 [3]陈志平,林亚平,李俊义。智能门户搜索引擎技术[J].计算机工程, 2004, 30 (3): 12-13