基于网页结构特征的垂直搜索引擎模型-上海怡健医学
优采云 发布时间: 2021-06-10 22:25基于网页结构特征的垂直搜索引擎模型-上海怡健医学
[摘要]:随着互联网的飞速发展,人们越来越依赖互联网来寻找自己需要的信息。互联网信息资源具有多样性、分布性、开放性、及时性和异质性等特点。同一主题的信息通常存储在不同的网站上,表现形式也不同。垂直搜索引擎可以按主题提取这些信息,并以结构化的形式存储。本文提出了一种基于网页结构特点的垂直搜索引擎模型。针对网站行业行业的领域特点,提出了相应主题元数据的统一表示标准。通过分析网站对应的网页,基于元数据表示标准和网页结构特征,提取出具体的网站网页信息提取模板。垂直搜索引擎根据信息抽取模板对目标网站进行网页抓取、页面转换、数据抽取、数据分离、数据存储。 网站的信息抽取模板用XML描述,对应网页的结构特征。由于采用了标准的XML并以文件的形式存储,因此可以方便地在关心网站信息的用户之间共享。根据本文提出的基于网页结构特征的垂直搜索引擎模型,我们开发了基于网页结构特征的垂直搜索引擎系统。整个系统基于元数据模型构建网站网页结构,获取网页的结构化信息。基于这个搜索引擎,我们开发了汽车、货物配送、物流等垂直搜索网站,并在实践中得到了进一步的验证。本文的主要工作和成果如下:1.基于网页的结构特点,研究了垂直搜索引擎系统的工作原理和基本系统结构。通过对垂直搜索引擎技术及相关技术的研究,提出了一种基于网页结构特点的垂直搜索引擎。工作模型,系统处理流程主要分为:网页抓取、页面转换、数据提取、数据分离。
本文基于工作模型,提出了分层的系统架构。 2.提出了行业网站网页信息的元数据模型。本课题通过对行业信息的分析,提出了一个通用的、标准化的元数据模型。同时,该模型利用XML等技术实现,并根据网站网页结构的具体特点,提出了一种信息抽取模板方法,将网站网页信息转化为符合元数据模型使用 XSLT 技术。 3、实现基于网页结构特点的垂直搜索引擎系统。本课题根据系统模型,利用微软.Net技术,实现了一个基于网页结构特点的垂直搜索引擎系统。系统采用面向界面的编程,使用系统配置文件,使系统具有高度的可配置性和灵活性。同时采用多线程技术,最大限度地利用计算机和网络资源,使系统具有较高的工作效率。 4.建立了基于本课题开发的垂直搜索引擎系统的车货配送物流原型系统,基于元数据模型,结合互联网上的车货配送网站,建立了车货配送物流原型系统分布元数据模型和信息提取模板。使用该系统,通过对汽车和产品分销网站信息的垂直搜索,可以得到网站的相应信息。建立了网站原型,为车辆和货物配送提供垂直搜索服务,证明了该系统的可行性和可用性。货车配送物流信息搜索结果表明,基于网页结构特征的垂直搜索引擎是具有商业价值的垂直搜索引擎。由于搜索引擎良好的通用性,数据描述和数据处理被抽象分离。所有部件均由组件构成。将其应用到其他专业或行业,也将带来巨大的商机和社会效益。 .