操作方法:一种云计算中垂直搜索引擎网页采集模板自动识别方法

优采云 发布时间: 2020-09-24 08:00

  云计算中垂直搜索引擎网页采集模板的自动识别方法

  云计算中垂直搜索引擎网页采集模板的自动识别方法

  [专利摘要]本发明公开了一种在云计算中自动识别垂直搜索引擎网页采集的模板的方法。它分析采集 网站的现有网页以随机获取一定数量的样本网页,提取特征属性,将属性值采集聚类到数据表中作为训练样本数据,并获得多个不同的网页模板;确定网页模板的类别,并训练网页模板分类器作为训练样本;应用分类处理器对所有采集网页模板进行分类,并根据分类获得的模板提取信​​息。该方法利用不同的网站网页采样,并利用数据挖掘聚类和分类算法为这些网站中的不同网页结构标识不同的分析模板,以达到智能分析的目的。

  [专利描述]-一种在云计算中自动识别垂直搜索引擎网页采集模板的方法

  [技术领域]

  [0001]本发明涉及云计算垂直搜索引擎领域,尤其涉及一种垂直搜索引擎网页采集模板自动识别方法。

  技术背景

  [0002]搜索引擎是云计算的关键技术。它充分利用了云计算带来的便利,也为云计算注入了无限的活力。垂直搜索引擎和常规Web搜索引擎之间的最大区别是,它从网页信息中提取结构化信息,即,将网页的非结构化数据提取为特定的结构化信息数据。然后将数据存储在数据库中,以进行进一步的处理,例如重复数据删除,分类等,最后进行分词,索引和搜索以满足用户的需求。

  [0003]垂直搜索引擎中的某个行业将涉及多个网站,并且每个网站的组织形式和网页结构都非常不同。如果要从中提取所需的信息,则需要具有高效且准确的结构。信息提取技术。提取信息有两种方法,一种是模板方法,它具有实现速度快,成本低,灵活性强的优点。缺点是后期维护成本高,信息来源少,信息量少。二是网页不依赖于网络结构化信息抽取方法,优点是数据容量大,但灵活性,准确性低,成本高。

  [发明内容]

  [0004]本发明要解决的技术问题是:本发明的目的是利用数据挖掘技术来实现垂直搜索引擎的智能网页分析。

  [0005]本发明采用的技术方案是:

  云计算中垂直搜索引擎网页采集模板的自动识别方法。为了使采集 网站随机获取一定数量的样本网页,分析现有网页,提取特征属性并设置属性值,采集用作训练样本数据以在数据表中聚类以获得多个不同的网页模板;将网页模板分类为训练样本,以训练网页模板分类器;将该分类器应用于所有采集网页模板分类,基于分类获得的模板进行信息提取。

  [0006]本发明的有益效果是:该方法使用不同网站的网页采样,并使用数据挖掘聚类和分类算法为这些网站模板中的不同网页结构标识不同的分析。达到智能分析的目的。

  [专利图纸]

  [图纸说明]

  [0007]图1是本发明原理的*敏*感*词*。

  [详细实现]

  [0008]将通过[具体实施方式]并参考以下附图进一步说明本发明:

  如图1所示,云计算中的垂直搜索引擎网页采集模板自动识别方法用于随机获取一定数量的示例网页,分析现有网页并提取Feature属性,将属性值聚类[ 采集放入数据表中作为训练样本数据,以获得多个不同的网页模板;识别网页模板的类别,并将网页模板分类器作为训练样本进行训练;将分类器应用于所有采集个网页分类为模板,并基于分类获得的模板提取信​​息。

  [要求]

  1.一种用于云计算的垂直搜索引擎网页采集模板自动识别方法,其特征在于:采集 网站随机获取一定数量的样本网页,分析现有网页,提取特征属性,将属性值采集聚类到数据表中作为训练样本数据,并获得多个不同的网页模板;识别网页模板的类别,并将网页模板分类器作为训练样本进行训练;应用分类器在所有采集网页上进行模板分类,并基于从分类中获得的模板进行信息提取。

  [文档编号] G06F17 / 30GK103870567SQ2

  [发布日期] 2014年6月18日申请日期:2014年3月11日优先日期:2014年3月11日

  [发明人]范颖,于志楼,梁华勇申请人:浪潮集团*敏*感*词*。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线