搜索引擎中,数据采集的应用背景下的数据,
优采云 发布时间: 2021-07-18 22:26搜索引擎中,数据采集的应用背景下的数据,
没有。 6, 2014 0 引言 随着互联网的不断发展,互联网上的信息和数据量不断增加,所收录的信息也相应增加。如何获取这些有用的信息正引起很多人的关注。在此背景下,搜索引擎应运而生。在搜索引擎中,数据采集的作用是将采集网页中的数据存储到数据库中,为搜索引擎提供服务[1,2]。网页数据采集分为机器自动采集和手动采集。这两种方法各有千秋,人工采集非常主观,采集接收到的数据质量非常高。并且机器自动采集可以自动搜索、采集并索引网络上的许多站点和页面,从而保证了快速变化的网络资源的跟踪和检索的有效性和及时性。因此,目前的搜索引擎大多采用手动和自动相结合的方式。网页数据采集方法主要是找到网页中的超链接,然后通过超链接找到网页,最后读取网页内容,找到网页中的其他链接地址,过滤掉无用信息保存到本地硬盘,然后使用这些链接地址去寻找下一个网页,这样一直循环下去,直到所有网站网页都被抓取完。网页数据采集是一种采集以网页为信息源的方式,从文本理解发展而来,是语言处理领域一个非常有用的分支。网页数据采集可以理解为从网页文档中寻找、识别、提取需要的信息点,整理出结构易懂的数据。网页数据采集从网页中提取非结构化信息进行格式化。信息抽取系统的输入为原文,输出为固定格式的信息点。
网页数据采集main 采集是网页文档,这些网页文档基本都是用超文本标记语言(HTML)来描述的,可以在浏览器上很好的显示。因为超文本标记语言不能很好地描述数据本身,外来的定义不明确,没有固定的模式,导致系统不能很好地理解网页上的信息,也不能很好地利用这些资源。网页数据采集的出现,主要是对网页半结构化HTML页面中隐藏的信息进行分析,提取出来,进行结构化,以更清晰的语义形式表达出来,方便用户查询网页中的数据。 , 应用程序直接使用网页中的数据提供方便。目前数据采集的方法很多。根据使用的原理不同,可分为基于自然语言处理方法的信息提取、基于包装器的信息提取、基于HTML的结构化信息提取和基于Web查询的信息提取[3]。 1 Page采集相关技术分析本文主要研究论坛采集中的数据。为了能够很好地监控论坛并为决策者提供支持,有必要研究一种能够自动读取论坛中的网页数据并从中提取信息的系统。 , 将半结构化论坛数据转化为结构化数据,方便下一步数据处理。论坛中的网页是一种半结构化信息。需要采取措施处理网页中的超文本标记语言,自动提取论坛中的帖子信息,如时间、内容、标题等相关信息。在论坛网页中,超文本标记语言收录了大部分网页信息,但也收录了大量噪音信息,有些甚至隐藏了错误。在超文本标记语言中,标签只告诉浏览器如何显示它定义的内容。信息根本不指定任何信息。当为了浏览器显示的方便而出现超文本标记语言时,它不适合计算机数据处理。因此,需要使用数据采集从这个半结构化的HTML文档中提取需要的东西。信息。
1.1HTML 技术超文本标记语言,标准通用标记语言下的一种应用。 “超文本”是指页面可以收录非文本元素,例如图片、链接,甚至音乐和程序。超文本标记语言的结构包括“头部”部分(外语:Head)和“主体”部分(外语:Body)。 “头部”部分提供网页的信息,“主体”部分提供网页的具体内容。 HTML 标签不仅很多,而且还有不同的版本。 "HTML文档有如下规定: l) HTML文件使用""来收录内容,这就是所谓的标签。福建计算机2014年第6期 这两个标签""是结束标签,一般出现这对标签成对,就像HTML文件在开头和结尾一样。2)HTML有嵌套形式,一对标签嵌套另一对标签,即它们在标签中的其他标签,如:available在标签中