内容采集系统(一种Web信息采集系统的*敏*感*词*法【技术领域】(组图))
优采云 发布时间: 2021-12-17 09:03内容采集系统(一种Web信息采集系统的*敏*感*词*法【技术领域】(组图))
一种网页信息采集系统的*敏*感*词*法
【技术领域】
[0001] 本发明涉及信息采集领域,尤其涉及一种Web信息采集系统。
【背景技术】
[0002] 随着互联网的飞速发展,互联网正在深刻地改变着人们的生活。WWW技术在互联网上发展最为迅速,逐渐成为互联网上最重要的信息发布和传输方式。然而,Web信息的快速膨胀不仅为人们提供了丰富的资源,也使人们在有效利用信息方面面临着巨大的挑战。
[发明概要]
[0003] 针对这种情况,本发明发明了一种Web信息采集系统,该系统包括:URL处理器、协议处理器、重复内容检测器、URL提取器、元信息获取器、语义信息解析器和数据库;URL处理器,用于将URL排序为采集,并按照一定的策略将URL分配给协议处理器;协议处理器,用于通过各种Web协议完成数据采集;web协议包括HTTP、FTP、Gopher和BBS;重复内容检测器,用于检测镜像页面和内容中的重复内容;URL提取器,用于分析经过重复内容检测的页面的链接,并对链接进行必要的转换;Meta信息获取器,用于分析已经采集的Meta信息,页面主题,页面摘要挖掘meta,结构等语义信息;对从页面中提取的URL的质量进行度量,并将度量结果传送给URL处理器进行排序;语义信息分析 用于对文本内容进行索引;数据库用于存储重复内容检测后的页面数据、提取的元信息、主题和摘要。语义信息分析 用于对文本内容进行索引;数据库用于存储重复内容检测后的页面数据、提取的元信息、主题和摘要。语义信息分析 用于对文本内容进行索引;数据库用于存储重复内容检测后的页面数据、提取的元信息、主题和摘要。
[0004] 本发明的Web信息采集系统提高了通用Web信息采集的能力,方便了人们对网络信息资源的使用。
【详细说明】
[0005] 本发明的Web信息采集系统包括:URL处理器、协议处理器、重复内容检测器、URL提取器、元信息获取器、语义信息解析器和数据库;
[0006] URL处理器,用于将URL排序为采集,并按照一定的策略将URL分配给协议处理器;协议处理器用于通过各种Web协议完成数据采集;web协议包括HTTP、FTP、Gopher和BBS;重复内容检测器,用于检测镜像页面和内容中的重复内容;URL提取器,用于分析经过重复内容检测的页面的链接,并对链接进行必要的转换;Meta信息获取器,用于分析已经采集的Meta信息,页面主题,页面摘要挖掘meta,结构等语义信息;衡量从页面中提取的 URL 的质量,并将测量结果传送给URL处理器进行排序;语义信息分析 用于对文本内容进行索引;数据库用于存储重复内容检测后的页面数据、提取的元信息、主题和摘要。
【主权项】
1.Web信息采集系统的特点是:URL处理器、协议处理器、重复内容检测器、URL提取器、元信息获取器、语义信息解析器和数据库;URL处理器用于将URL排序为采集,并按照一定的策略将URL分配给协议处理器;协议处理器用于通过各种Web协议完成数据处理采集;Web 协议包括 HTTP、FTP、Gopher 和 BBS;重复内容检测器用于检测镜像页面和内容中的重复内容,URL提取器,用于分析经过重复内容检测的页面的链接并进行必要的转换;Meta信息获取器用于分析已经采集的页面的Meta信息和主题,页面摘要,挖掘meta、结构等语义信息;对从页面中提取的URL的质量进行度量,并将度量结果传送给URL处理器进行排序;语义信息解析器用来索引文本内容;数据库用于存储重复内容检测后的页面数据、提取的元信息、主题和摘要。
[专利摘要] 本发明涉及信息采集领域,尤其涉及一种Web信息采集系统。该系统包括:URL处理器,用于将URL排序为采集,并按照一定的策略将URL分配给协议处理器;采集协议通过各种网络协议完成数据的处理器;重复内容检测器用于检测镜像页面和内容中的重复内容;URL提取器用于分析经过重复内容检测的页面链接并进行必要的链接转换;Meta信息获取器,用于挖掘采集收到的Meta信息、页面主题、页面摘要的元、结构等语义信息;以及用于索引文本内容的语义信息解析器;是一个存储页面数据经过反复内容检测、提取的元信息、主题和摘要的数据库。该系统提高了通用Web信息采集的能力,方便了人们对网络信息资源的使用。
【工控机分类】G06F17/30
【刊号】CN105630782
【申请编号】CN2
【发明人】李东
【申请人】
【宣传日】2016年6月1日
【申请日期】2014年10月27日