中文网页手动采集与分类系统设计与实现

优采云 发布时间: 2020-08-27 00:20

  中文网页手动采集与分类系统设计与实现

  中文网页手动采集与分类系统设计与实现密级: 保密时限: 本人申明成果。尽我所 收录其他人已 教育机构的学 何贡献均已在 申请学位 本人签名 本人完全 校攻读学位期 家有关部门或 可以公布学位 保存、汇编学 本学位论 本人签名 导师签名 中文网页手动采集与分类系统设计与实现 摘要 随着科学技术的急速发展,我们早已步入了数字信息化时代。Internet 作为 当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网路上 以怎样快速、准确地从海量的信息资源中找寻到自己所需的信息已然成为网路用 户须要急迫解决的一大困局。因而基于web 的网路信息的采集与分类便成为 人们 研究的热点。 传统的web 信息采集的目标就是尽可能多地采集信息页面,甚至是整个 web 上的资源,在这一过程中它并不太在乎采集的次序和被采集页面的相关主 乱、重复等情况的发生。同时怎么有效地对采集到的网页实现手动分类,以创建 更为有效、快捷的搜索引擎也是十分必要的。网页分类是组织和管理信息的 有效 手段,它可以在较大程度上解决信息杂乱无章的现象,并便捷用户准确地定 需要的信息。传统的操作模式是对其人工分类后进行组织和管理。

  随着Internet 上各类信息的迅猛降低,仅靠人工的方法来处理是不切实际的。因此,网页 自动 分类是一项具有较大实用价值的方式,也是组织和管理数据的有效手段。这 也是 本文研究的一个重要内容。 本文首先介绍了课题背景、研究目的和*敏*感*词*的研究现况,阐述了网页 采集 和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技 几种典型的算法以后,本文选定了主题爬虫的方式和分类方面表现出众的KNN 方法,同时结合去重、分词和特点提取等相关技术的配合,并对英文网页的 结构 和特征进行了剖析后,提出英文网页采集和分类的设计与实现方式,最后通 过程 序设计语言来实现,在本文最后对系统进行了测试。测试结果达到了系统设 要求,应用疗效明显。关键词:Web 信息采集网页分类信息抽取动词特点提取 OFCHINESEANDIMPLE匝N1:ATION DESIGN wEBPAGEAUT0~IATIC采集 ANDCLASSIFICATION ABSTRACT Withthe ofscienceand haveenteredthe development technology,we rapid information iSseenastheworld’S information digital age.Intemet,which largest tobethemaint001 information.ItiS database.becomes obtaining majorproblem solved howto fromthemassofinformationresourcesurgentlyquicklyaccurately thatusersneedbecausethenetworkofinformationresources tofindtheinformation thelack hasa characteristics,and massive,dynamic,heterogeneous,semi―structured ofaunified information-based采集management organization presents.J theresearchandclassificationbecomes hotspot. information采集istoinformationas goal gather thewholeresourcesthe‖如功eorderand muchas even pagespossible,or topic inthe contentsiStooarenotcaredabout collecting.thepage cluttered, ofthemisusedSO resources largepart sparingly system 采集methodusedtoreducethecollected arewasted.TIliSeffective requires clutterand web classificatedtocreatepagesautomaticaly page duplication.The ande 伍cientsearch ofwebeffective managementpage engine.Organization Cansolveaextent classificationiSaneffectivemeallSinformation,which large clutterandfacilitateuserstolocate ofinformation phenomenon accurately modeof iSmanual.With information traditional theyneed.However,the operation infornlationinthe tohandle ofallkindsofIntemet,manual rapidincreasing way classificationisnotamethodaloneiSunrealistic Webgreatpractical alsoisaneffectivemeansof data.Ttisanvalue,but organizingmanaging researchofthis importantpart paper. andresearchstatusare Firstly,thebackground,purposeintroduced,and topic andclassificationare ofweb采集 theories,techniquesalgorithmspage includswebcrawler web deletcion described,which technology,duplicatedpages word extraction segmentation, feature technology,Chinese technology,information web classification extraction pagetechnology.Acomprehensive techniques ofseveral crawlerandKNNmade,topical comparison typicalalgorithms have classificationisselectedbecause outstandingperformance.111eproposedChinesewebare afterandclassificationof designedimplementated acquisition structureandcharacteristicsofChinese arecombinedandthetechnologies web iscodedandrealizedthelanguagepageanalyzed.Finally,it programmingresultsthatthe metthe language.Testsystem designrequirements,andapplication donefeilds. many information classification, Keywords:web采集,webpage information extraction extraction,segmentation,character 法.484.7.2 KNN 结5253 。

  63北京邮电大学软件工程硕上论文 第一章序言 1.1 课题背景及研究现况 1.1.1 课题的背景及研究目的 随着互联网的普及和网路技术的急速发展,网络上的信息资源呈指数级 以从互联网上获得越来越多的包括文本、数字、图形、图像、声音、视频等信息。 然而,随着web 信息的极速膨胀,如何快速、准确地从广袤的信息资源中找 己所需的信息却成为广大网路用户的一大困局。因而基于互联网上的信息采集和 搜索引擎。这些搜索引擎一般使用一个或多个采集器从Intemet如、FTP、 Email、News 上搜集各类数据,然后在本地服务器上为这种数据构建索引, 用户检索时按照用户递交的检索条件从索引库中迅速查找到所需的信息。Web 信息采集作为这种搜索引擎的基础和组成部份,发挥着举足轻重的作用。web 信息采集是指通过Web 页面之间的链接关系,从Web 上手动地获取页面信息, 并且随着链接不断的向所须要的web 页面扩充的过程。传统的W 曲信息采集 目标就是尽可能多地采集信息页面,甚至是整个web 上的资源,在这一过 够集中精力在采集的速率和数目上,并且实现上去也相对简单。但是,这种传统 的采集方法存在着好多缺陷。

  因为基于整个Web 的信息采集需要采集的页面 一部分利用率太低。用户常常只关心其中极少量的页面,而采集器采集的大部分 页面对于她们来说是没有用的。这其实是对系统资源和网路资源的一个巨大 费。随着web网页数目的迅猛下降,即使是采用了定题采集技术来完善定题 类,以创建更为有效、快捷的搜索引擎是十分必要的。传统的操作模式是对其人 工分类后进行组织和管理。这种分类方式分类比较确切,分类质量也较高。 随着 Internet 上各类信息的迅速降低,仅靠人工的方法来处理是不切实际的。 对网页 进行分类可以在很大程度上解决网页上信息零乱的现象,并便捷用户准确地 定位 所须要的信息,因此,网页手动分类是一项具有较大实用价值的方式,也是 组织 和管理数据的有效手段。这也是本文研究的一个重要内容。 北京邮电大学软件工程硕士论文 1.1.2 课题的*敏*感*词*研究现况 网页采集技术发展现况网路正在不断地改变着我们的生活,Intemet 已经成为现今世晃上最大 息资源库,如何快速、准确地从广袤的信息资源库中找寻到所需的信息早已成为 网络用户的一大困局。无论是一些通用搜索引擎 如微软、百度等 ,或是一 定主题的专用网页采集系统,都离不开网页采集,因而基于Web的网页信息 采集 和处理日渐成为人们关注的焦点。

  传统的Web 信息采集所采集的页面数目过 大,采集的内容也过分零乱,需要消耗很大的系统资源和网路资源。同时Intemet 信息的分散状态和动态变化也是困惑信息采集的主要问题。为了解决这种问 搜索引擎。这些搜索引擎一般是通过一个或多个采集器从Internet 上搜集 各种数 据,然后在本地服务器上为这种数据构建索引,当用户检索时按照用户递交 用的须要。即使小型的信息采集系统,它对Web的覆盖率也只有30"--40% 左右。 即便是采用处理能力更强的计算机系统,性价比也不是很高。相对更好的方 能满足人们的须要。其次,Intemet 信息的分散状态和动态变化也是影响信息采集的缘由。 由于 信息源可能随时处于变化之中,信息采集器必须时常刷新数据,但这仍未能 避免 采集到失效页面的情况。对于传统的信息采集来说,因为须要刷新页面数目 在采集到的页面中有相当大的一部分利用率太低。因为,用户常常只是关心其中 极少量的页面,并且这种页面常常是集中在一个或几个主题内,而采集器采 网络资源的一个巨大浪费。这些问题的形成主要是因为传统的 Web 信息采集所采集的页面数目过 大而且所采集页面的内容过分零乱。如果将信息检索限定在特定主题领域,根据 主题相关的信息提供检索服务,那么所需采集的网页数目都会大大降低且主 北京邮电大学软件工程硕上论文一。

  这类Web 信息采集称为定题Web 信息采集,由于定题采集检索的范围较 所以查准率和查全率相对较高。但是随着网路的迅猛发展,Web网页数目的 爆炸 增长,即使采用了定题采集技术来完善定题搜索引擎,相对于广泛的主题来 同一主题的网页数目依然是海量的。所以,如何有效地将同一主题的网页根据某 种给定的模式进行分类,以创建更为有效、更为快捷的搜索引擎是一个十分 重要 的课题。 网页分类技术发展现况网页手动分类是在文本分类算法的基础上结合 6>HTML 语言结构特征 发展起 来的,文本手动分类最初是配合信息检索 InformationRetrieval,IR 系统 的需求 而出现的。信息检索系统必须操纵大量的数据,其文本信息库抢占其中大部 分内 容,同时,用来表示文本内容的词汇数目又是成千上万的。在这些情况下, 如果 能提供具有良好的组织与结构的文本集,就能大大简化文本的存取和操作。 文本 自动分类系统的目的就是对文本集进行有序的组织,把相像的、相关的文 本组织 在一起。它作为知识的组织工具,为信息检索提供了更高效的搜索策略和更 准确 的查询结果。 文本手动分类研究源于50 年代末,H.RLulm 在这一领域进行了开创性 究。

  网页手动分类在美国经历了三个发展阶段:第一阶段1958.1964 要进行手动分类的可行性研究,第二阶段 1965.1974 进行手动分类的实验研究, 第三阶 1975.至今步入实用化阶段【l_】。 国内手动分类研究起步较晚,始于20 世纪80 年代早期。关于英文文本 分类的 研究相对较少,*敏*感*词*的研究基本上是在英语文本分类的基础上,结合英文 文本 和汉语语言的特点采取相应的策略,然后应用于英文之上,继而产生英文文 动分类研究体系。1981年,候汉清对计算机在文献分类工作中的应用作了 探讨。 早期系统的主要特征是结合主题词表进行剖析分类,人工干预的成份很大, Lam等人将KNN 方法和线性分类器结合,取得了较好疗效, 港中文大学的Wai回率接近90%,准确率超过80%t31。C.K.P Wong 等人研究了用混和关键词进 行文 本分类的方式,召回率和准确率分别为72%和62%t41。复旦大学和东芝 研究开 发中心的黄首著、吴立德、石崎洋之等研究了独立语种的文本分类,并以词 类别的互信息量为评分函数,分别用单分类器和多分类器对英文和法文文本进行 了实验,最好的结果召回率为 88.87%【5’。

  上海交通大学的刁倩、 王永成等人结 合词权重和分类算法进行分类,在用VSM 方法的封闭式测试实验中分类正确 N97%t71。此后,基于统计学的思想,以及动词、语料库等技术被不断应用到 分类中。 万维网大约载有115 亿多的可索引的网页,且每晚都有几千万或更多的 网页 被添加。如何组织那些大量有效的信息网路资源是一个很大的现实问题。网 页数 实现网页采集功能子系统。 二、对网页信息抽取技术、中文动词技术、特征提取技术和网页分类技 析比较,采用性能优良的KNN分类算法以实现网页分类功能。 三、采用最大匹配算法对文本进行动词。对网页进行清洗,剔除网页中 些垃圾信息,将网页转换为文本格式。四、网页预处理部份,结合网页的模型特征,根据HTML 标记对网页不 分的文本进行加权处理。通过以上几个方面的工作,最终完成一个网页手动采集与分类系统的设 实现,并用通过实验验证以上算法。1.3 论文结构 本文共分6 章,内容安排如下: 第一章序言,介绍本课题的意义、*敏*感*词*现况和任务等。 第二章网页采集与分类相关技术介绍,本章对采集和分类上将会用到的 北京邮电大学软件工程硕士论文关技术的原理、方法等介绍。包括常用的网页爬虫技术、网页去 页分类技术。

  第三章网页采集与分类系统设计,本章首先进行系统分析,然后进行系统 概要设计、功能模块设计、系统流程设计、系统逻辑设计和数据 设计。第四章网页采集与分类系统实现,本章详尽介绍各模块是实现过程,包括 页面采集模块、信息抽取模块、网页去重模块、中文动词模块、 征向量提取模块、训练语料库模块和分类模块。第五章网页采集与分类系统测试,本章首先给出系统的运行界面,然后给 出实验评测标准并对实验结果进行剖析。 第六章结束语,本章对本文工作进行全面总结,给出本文所取得的成果, 指出存在的不足和改进方向。 北京第二章网页 2.1 网页爬虫技术 程序,也是搜索引擎的核心部件。搜索引擎的性能,规模及扩充能力很大程 度上 依赖于网路爬虫的处理能力。网络爬虫 Crawler 也被叫做网路蜘蛛 Spider 或网路机器人Robot 。网络爬虫的系统结构如图 2-1 所示:其中下载模块 用于 库用于储存从抓取网页中抽取的URL。 图2.1 网络爬虫*敏*感*词* 网络爬虫从给定的URL 出发,沿着该网页上的出链 out.Links ,按照 设定的 网页搜索策略,例如,宽度优先策略,深度优先策略,或最佳优先策略, 采集 URL 队列中优先级别高的网页,然后通过网页分类器判定是否为主题网页, 如果 是则保存,否则遗弃;对于采集的网页,抽取其中收录的URL,经过相应处 插入到URL队列中。

   2.1.1 通用网路爬虫 通用网路爬虫 generalpurposewebcrawler 会按照预先设定的一个或 若干初 始*敏*感*词*URL 开始,下载模块不断从URL 队列中获取一个URL,访问并下载该 页面。 页面解析器除去页面上的 HTML 标记得到页面内容,将摘要、URL 等信息保 存到 web 数据库中,同时抽取当前页面上新的URL,保存至UURL 队列,直到满足

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线