解决方案:基于语义的信息采集方法及系统的*敏*感*词*法

优采云 发布时间: 2020-09-01 09:03

  制作基于语义的信息采集的方法和系统制造方法

  制作基于语义的信息采集的方法和系统制造方法

  技术领域本发明涉及数据挖掘技术领域,尤其涉及一种基于语义信息的方法和系统. 信息采集方法包括以下步骤: S1. 根据网络资源的典型特征,建立网络资源的抽象数据模型; S2. 使用搜索引擎从Internet 采集获取网络信息,并在网络中使用采集的网络信息. 对资源抽象数据模型进行格式化; S3. 对格式化后的网络信息进行聚类分析,根据聚类分析的结果将网络信息划分为相应的主题,提取每个主题的标签; S4. 在步骤S3中可视地显示处理结果. 本发明以主题为动力来组织网络资源,可视化地显示,下载和离线查看网络资源,从而可以在多个维度上显示网络信息,并且以图像和直观的方式向用户呈现网络信息,从而改善用户浏览效率的影响.

  [专利描述]基于语义的信息采集方法和系统

  [技术领域]

  [0001]本发明涉及数据挖掘[技术领域],尤其涉及基于语义的信息采集的方法和系统. [背景技术]

  [0002]网络数据(资源)是指Internet上各种信息资源的总和,包括电子文学,数据库,数字文学,数字书目,电子报纸,在线新闻以及其他形式的知识,数据,情报,邮件采集等.

  [0003] Internet上的信息具有数据量大,更新速度快和及时性强的特征. 每天都会产生大量的网络信息. 为了帮助用户摆脱“信息爆炸”的困境,大型门户网站网站和主要的搜索引擎公司将提供大量的网络资源,也就是说,在一个页面中,Internet信息将显示在一个页面中. 全面,多角度地介绍网络资源的相关情况,并分析其特征. 通常,这些网络资料是由编辑者手动组织的.

  [0004]网络数据的自动组织是指利用信息提取和数据挖掘及其他相关技术,根据特定的规范或模型,方便用户浏览和获取网络数据信息,以结合分散的,无序的网络数据信息是一个系统而有序的过程. 因此,如何有效,合理地组织网络数据的研究已成为亟待解决的问题. 网络数据的自动化组织越来越受到用户的关注: 对于主要的Internet 网站,它可以代替过去. 网络数据的组织是手动的;对于普通的网络数据用户,它可以利用计算机的快速处理能力和相关的成熟技术来进一步改善网络数据的组织,从而提高用户的浏览效率.

  [0005]网络数据收录许多不同类型的网络信息,例如资源分类,资源中收录的信息类型,时间,相关人员,位置,组织等. 这些不同类型的信息不存在相反,它们彼此依赖,并通过某种关系紧密地联系在一起. 因此,如何有效地整合这些不同类型的信息是网络数据自动组织的关键,这正是本文的目标.

  [0006]在网络资源组织的相关技术中,主题检测可以有效地采集和组织分散的网络资源. 然而,由于网络资源中信息的高度相似性,基于传统向量空间模型的主题检测效果不佳. 合理的网络资源组织模型可以更好地帮助用户理解和分析网络资源信息,但是现有的组织模型是单一的,难以表现其多维特征.

  [发明内容]

  [0007](1)要解决的技术问题

  [0008]本发明的目的是提供一种基于语义的信息采集方法和系统,该方法和系统是主题驱动的,用于网络资源的组织,网络资源的可视显示,下载和离线查看,从而它可以是多维显示网络信息,以生动直观的方式向用户展示网络信息,从而进一步提高用户的浏览效率.

  [0009](2)技术解决方案

  [0010]本发明的技术方案如下:

  [0011]一种基于语义的信息采集方法,包括以下步骤:

  [0012] S1. 根据网络资源的典型特征,建立网络资源的抽象数据模型; [0013] S2. 使用搜索引擎从Internet获取采集网络信息,并在网络中使用采集网络信息格式化资源抽象数据模型;

  [0014] S3. 对格式化后的网络信息进行聚类分析,根据聚类分析结果将网络信息划分为相应的主题,并提取每个主题的标签;

  [0015] S4. 在步骤S3中直观地显示处理结果.

  [0016]优选地,步骤SI还包括:

  [0017]根据Internet资源的典型特征,总结网络资源抽象数据模型模型的要素,建立网络资源抽象数据模型模型.

  [0018]优选地,步骤S2还包括:

  [0019] S21. 获取搜索引擎从Internet搜索到的网络信息;

  [0020] S22. 使用网页爬网分析程序组件和正则表达式规则来分析和分析爬网的网络信息以获得文本信息;

  [0021] S23. 使用网络资源抽象数据模型来格式化获取的文本信息.

  [0022]优选地,步骤S3还包括:

  [0023] S31. 使用中文分词工具对格式化的文本信息进行分段和标记;

  [0024] S32. 在步骤S31中,根据预设的候选关键词标准对词分割结果进行过滤,得到候选关键词;

  [0025] S33. 计算每个候选关键词对主题标签的贡献,对网络信息进行聚类分析,并根据聚类分析结果将网络信息划分为对应的主题;

  [0026] S34. 按贡献的降序排列候选关键字,并提取前几个候选关键字以生成主题标签.

  [0027]优选地,步骤S3还包括:

  [0028] S35. 在知识库中建立候选关键字的链接.

  [0029]优选地,步骤S4还包括:

  [0030] S41. 根据用户提供的搜索词,搜索引擎搜索到的网络信息的前几项将作为摘要,供用户确定是否需要该内容: 如果是,请继续;

  [0031] S42. 根据步骤S1-步骤S3,将步骤S41中获得的网络信息划分为对应的主题,并生成对应的主题标签;

  [0032] S43. 根据主题与单个网络信息之间关系的排名,生成主题实体关系图和到知识库的链接.

  [0033]优选地,在步骤S4之后,还包括:

  [0034] S5. 根据生成的主题标签和主题标签下的网络信息,选择需要打包下载的数据内容,并对打包下载的数据内容进行索引.

  [0035]优选地,在步骤S5之后,还包括:

  [0036] S6. 将在步骤S5中打包下载的数据内容复制到指定的文件夹或目录中;自动解压缩复制的数据内容并恢复数据,并以网页形式显示,供用户浏览.

  [0037]本发明还提供了一种根据上述基于语义的信息采集方法中的任意一种实现的基于语义的信息采集系统:

  [0038]-一种基于语义的信息采集系统,包括: [0039]抽象数据模型构建模块: 用于根据网络资源的典型特征构建网络资源的抽象数据模型;

  [0040]网络信息采集模块: 使用搜索引擎从Internet 采集获取网络信息,并使用网络资源抽象数据模型格式化采集的网络信息;

  [0041]聚类分析模块: 对格式化后的网络信息进行聚类分析,根据聚类分析结果将网络信息划分为相应的主题,并提取每个主题的标签;

  [0042]分析结果显示模块: 用于直观地显示聚类分析模块的处理结果.

  [0043]优选地,它还包括:

  [0044]数据内容下载模块: 根据生成的主题标签和主题标签下的网络信息,选择要打包下载的数据内容,并对打包下载的数据内容进行索引;

  [0045]离线浏览模块: 用于将打包下载的数据内容复制到指定的文件夹或目录中,并自动解压缩和恢复复制的数据内容,并以网页形式呈现,供用户浏览.

  [0046](3)有益效果

  [0047]本发明实施例提供的基于语义的信息采集方法和系统是主题驱动的,用于网络资源的组织,网络资源的可视显示,下载和离线查看,从而实现多维比较显示网络信息,以生动直观的方式向用户展示网络信息,具有提高用户浏览效率的作用.

  [专利图纸]

  [图纸说明]

  [0048]图1是本发明实施例的基于语义的信息采集方法的示意性流程图;

  [0049]图2是本发明实施例的基于语义的信息采集系统的硬件结构*敏*感*词*;

  [0050]图3是本发明实施例的基于语义的信息采集的方法和系统的实现效果图.

  [详细实现]

  [0051]以下将参考附图和示例进一步描述本发明的[特定实施例]. 以下实施例仅用于举例说明本发明,并不用于限制本发明的范围.

  [0052]示例一

  [0053]本实施例首先提供基于语义的信息采集方法. 如图1所示,基于语义的信息采集方法主要包括以下步骤:

  [0054] S1. 根据网络资源的典型特征,总结模型元素,建立网络资源抽象数据模型;

  [0055] S2. 使用搜索引擎从互联网获取采集网络信息,并使用网络资源抽象数据模型格式化采集的网络信息;

  [0056] S3. 对格式化后的网络信息进行聚类分析,根据聚类分析结果将网络信息划分为相应的主题,并提取每个主题的标签;

  [0057] S4. 在步骤S3中直观地显示处理结果.

  [0058]此外,还可以包括以下步骤:

  [0059] S5. 网络信息的打包下载: 根据生成的主题标签和主题标签下的网络信息,选择需要打包下载的数据内容,并对打包下载的数据内容进行索引;

  [0060] S6. 离线查看网络信息: 将步骤S5中打包下载的数据内容复制到指定的文件夹或目录中;自动解压缩在步骤S6中复制的数据内容并恢复数据,并以网页形式呈现给用户浏览.

  [0061]该实施例中基于语义的信息采集方法的步骤将在下面更详细地描述.

  [0062]其中,步骤SI包括:

  [0063]根据互联网资源的典型特征,总结模型元素,建立网络资源抽象数据模型;在本实施例中,该步骤可以具体为:

  [0064]比较互联网资源的典型特征,总结和分析互联网资源的典型特征,以获得网络资源抽象数据模型的模型元素;例如,网络信息文本通常包括主题(Topic),标题(Title),发布时间(Time),发布者(Author),正文内容(Content),素材链接(URL)等. Internet资源通常包括这些元素;同时,这些元素通常是用户关心的. 网络资源抽象数据模型的模型应基于这些元素. 通过建立网络资源抽象模型,用户可以更清晰,更方便地理解网络资源中收录的内容,使用户更容易理解网络资源的含义,从而可以更方便地使用Internet资源.

  [0065]其中,步骤S2还包括:

  [0066] S21. 使用用户的输入作为搜索词,使用百度或Google等搜索引擎获取网络信息采集,并从互联网上获取搜索引擎搜索到的网络信息;

  [0067] S22. 使用网页爬网分析程序组件和正则表达式规则来分析和分析爬网的网络信息(例如HTML页面标签)以获得文本信息;同时,互联网上的噪音信息(例如广告词或Flash等)进入过滤器;

  [0068] S23. 提取的文本信息使用在步骤SI中建立的网络资源摘要数据模型进行格式化.

  [0069]其中,步骤S3还包括:

  [0070] S31. 使用ICTCLAS(计算机技术研究所-中国词法分析系统,中国词法分析系统)和其他分词工具来分词文本信息并标记语音部分;

  [0071] S32. 用户应以清晰的语义轻松理解网络信息中的关键信息. 为了减少关键字的歧义,该实施例还在特定领域中增加了一些专业术语,规定除了个别化学元素,动植物的总称和其他专有名词外,关键字不能是单个单词. 此外,除节假日外,用户通常对特定的日期和时间不感兴趣. 因此,除非文本确实强调了特定时间,否则诸如“ 2003”和“ March”之类的单词不应成为主题标签的内容. 使用此标准将分词数据作为主题标签的候选关键字条件进行计数;根据候选词准则,去除一些不符合定义准则的词(如某些功能词,量词,拟声词等)停用词,即对步骤S31中的词分割结果进行过滤,过滤掉一些单字符单词和停用词列表中的单词以获得候选关键字;

  [0072] S33. 保存所有候选关键字,计算每个候选关键字对主题标签的贡献,并使用LDA(潜在狄利克雷分配,潜在狄利克雷分配)主题模型算法对网络信息进行聚类和分析;在本实施例中,该步骤具体包括:

  [0073]除了词性之外,从单词频率,外观和形状这三个方面,每个单词设置八个贡献度. 表1列出了所有贡献度和计算方法.

  [0074]表一单词贡献度及其计算方法

  [要求]

  1. 一种基于语义的信息采集方法,其特征在于包括以下步骤: 51.根据网络资源的典型特征,建立网络资源的抽象数据模型; 52.使用互联网采集网络信息中的搜索引擎,并用网络资源抽象数据模型对采集的网络信息进行格式化; 53,对格式化后的网络信息进行聚类分析,并根据聚类分析结果对网络信息进行划分. 输入对应的主题,提取每个主题的标签; 54.在步骤S3中直观显示处理结果.

  2. 2.根据权利要求1所述的基于语义的信息采集方法,其特征在于,所述步骤SI还包括: 根据互联网资源的典型特征,总结网络资源抽象数据模型模型元素,并建立网络资源抽象数据模型模型.

  3. 3.根据权利要求2所述的基于语义的信息采集方法,其中,步骤S2还包括: 521. 获取由搜索引擎从互联网搜索到的网络信息;以及522.使用网页爬行分析程序组件和正则表达式规则对捕获的网络信息进行分析和分析,以获取文本信息; 523.使用网络资源抽象数据模型来格式化获取的文本信息.

  4. 4.根据权利要求3所述的基于语义的信息采集方法,其中,步骤S3还包括: 531. 使用中文分词工具对格式化后的文本信息进行分词,并进行语音标注. 532,在步骤S31中,根据预设的候选关键词标准对单词分割结果进行过滤,得到候选关键词; 533,统计每个候选关键词对主题标签的贡献,对网络信息的贡献. 进行聚类分析,根据聚类分析结果,将网络信息划分为对应的主题; 534.按照贡献的降序排列候选关键字,提取前几个候选关键字,并生成主题标签.

  5. 5.根据权利要求4所述的基于语义的信息采集方法,其中,步骤S3还包括: 535.在知识库中建立候选关键词的链接.

  6. 6.根据权利要求5所述的基于语义的信息采集方法,其中,步骤S4还包括: 541. 根据用户提供的搜索词,搜索引擎搜索到的前几项. 用户确定是否需要该内容: 如果不需要,则结束;否则,结束. 如果是,请继续; 542,根据步骤S1-步骤S3,将步骤S41中获得的网络信息划分为相应的主题,并生成相应的主题标签; 543.根据主题和单个网络信息之间的关系排名,生成主题实体关系图和到知识库的链接.

  7. 7.根据权利要求1-6中任一项所述的基于语义的信息采集方法,其特征在于,在步骤S4之后,还包括: S5. 根据生成的主题标签和主题标签网络信息下的主题,选择要打包下载的数据内容,并对打包下载的数据内容进行索引.

  8. 8.根据权利要求7所述的基于语义的信息采集方法,其特征在于,在步骤S5之后,还包括: S6. 将在步骤S5中打包下载的素材内容复制到指定的文件夹或目录中;自动解压缩并恢复复制的数据内容,并以网页形式显示,供用户浏览.

  9. 9.根据权利要求1至8中任一项所述的方法实现的基于语义的信息采集系统,其特征在于,包括: 抽象数据模型构建模块: 用于根据特征对网络资源进行建模,建立抽象数据网络资源模型;网络信息采集模块: 使用搜索引擎从互联网采集获取网络信息,并使用网络资源抽象数据模型对采集的网络信息进行格式化. 聚类分析模块: 对格式化后的网络信息进行聚类分析,根据聚类分析结果将网络信息划分为相应的主题,提取每个主题的标签. 分析结果显示模块: 用于直观显示聚类分析模块的处理结果.

  10. 10.根据权利要求9所述的基于语义的信息采集系统,其特征在于,还包括: 数据内容下载模块,用于选择所述生成的主题标签和所述主题标签下的网络信息. 下载的数据内容;离线浏览模块: 用于将打包下载的数据内容复制到指定的文件夹或目录中,并自动解压缩复制的数据内容和数据,并将其显示为网页供用户浏览.

  [文档编号] G06F17 / 30GK103473369SQ2

  [发布日期] 2013年12月25日申请日期: 2013年9月27日优先日期: 2013年9月27日

  [发明人]李娟子,齐瑜,何伟,焦成波,张鹏,杨瑞冰申请人: 清华大学

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线