抓取网页新闻(技术领域:本发明涉及一种网页爬虫的构建方法,特别是一种)
优采云 发布时间: 2021-10-08 03:22抓取网页新闻(技术领域:本发明涉及一种网页爬虫的构建方法,特别是一种)
专利名称:基于新闻去重的网络爬虫构建方法
技术领域:
本发明涉及一种网络爬虫的构建方法,尤其涉及一种基于新闻去重的网络爬虫构建方法。
片法。
背景技术:
在这个信息爆炸的时代,网络媒体以其快速的新闻发布和广泛的新闻传播逐渐取代了电视,报纸等传统媒体已经成为现在的主流新闻传播方式。目前各大新闻门户网站网站“新浪”、“新华网”、“网易”都拥有自己强大的新闻采访、编辑和发布团队,每天发布的新闻数量达到数千篇。新闻网站一般涵盖各类新闻:国内新闻、国际新闻、社会新闻、娱乐新闻、军事新闻、体育新闻、财经新闻、科技新闻等,同时每个新闻门户都有自己的特色,如新华网时事新闻、新浪体育新闻、和网易上的社交新闻。因此,整合多个新闻门户网站网站的新闻,可以让用户获得更全面、更丰富、更有特色的新闻信息。如何有效地从网络中提取信息成为一个巨大的挑战。搜索引擎作为一种辅助人们检索信息的工具,已经成为用户访问万维网的入口和向导。但是,通用搜索引擎存在以下局限性1、通用搜索引擎的目标是获得尽可能大的网络覆盖,这进一步加深了搜索引擎服务器资源有限与网络数据资源无限的矛盾之间的差距。2、 网络数据形式丰富,网络技术不断发展。有大量不同形式的数据,如图片、数据库、音频/视频等,一般的搜索引擎往往对这些信息内容密集、具有一定结构的数据无能为力。很好的发现和获取。
3、大多数通用搜索引擎都提供基于关键字的检索,难以支持基于语义信息的查询。4、不同领域、不同北京的用户有不同的搜索目的和需求。一般搜索引擎返回的结果中收录了很多用户并不关心的信息。为解决上述不足,有针对性地抓取相关网络资源的网络爬虫应运而生。网络爬虫是一种自动提取网页的程序。它可以自动从互联网上抓取网页,是搜索引擎的重要组成部分。其工作原理是网络爬虫从初始设置的一个或多个初始网页的URL出发,获取初始网页上的URL,并在抓取网页的过程中不断地从当前网页中提取新的网址,然后根据网页进行分析。该算法过滤掉与主题无关的连接,保留有用的连接并将它们放入 URL 队列中等待访问,直到满足某个停止条件。网络爬虫可以同时爬取多个数据源。以新闻信息为例,说明网络爬虫的缺点。1、因为每条新闻网站发布的消息,可能是文章的同一个副本,也可能是差不多的网站发布了不同的文章对于不同的事情。网络爬虫在爬取数据的时候,很可能也会抓取到这些重复的信息。这不仅会浪费网络资源,存储资源,也给数据维护带来了很大的麻烦。2、 网页上有大量的网址指向与新闻无关的无效信息,如广告、博客、导航网页等,如果爬虫也抓取这些网址,它也会造成网络资源和存储资源的浪费。,后续维护困难。3、 现有的网络爬虫首先抓取和下载网页,然后进行有效性分析。会下载大量不相关的网页,浪费有限的存储资源。4、随着网页抓取量的增加,不相关的网页被下载,然后进行分析和过滤,导致算法效率低下。@2、 网页上有大量网址指向与新闻无关的无效信息,如广告、博客、导航网页等,如果爬虫也抓取这些网址,也会造成浪费网络资源和存储资源。,后续维护困难。3、 现有的网络爬虫首先抓取和下载网页,然后进行有效性分析。会下载大量不相关的网页,浪费有限的存储资源。4、随着网页抓取量的增加,不相关的网页被下载,然后进行分析和过滤,导致算法效率低下。@2、 网页上有大量网址指向与新闻无关的无效信息,如广告、博客、导航网页等,如果爬虫也抓取这些网址,也会造成浪费网络资源和存储资源。,后续维护困难。3、 现有的网络爬虫首先抓取和下载网页,然后进行有效性分析。会下载大量不相关的网页,浪费有限的存储资源。4、随着网页抓取量的增加,不相关的网页被下载,然后进行分析和过滤,导致算法效率低下。导航网页等,如果爬虫也抓取这些网址,也会造成网络资源和存储资源的浪费。,后续维护困难。3、 现有的网络爬虫首先抓取和下载网页,然后进行有效性分析。会下载大量不相关的网页,浪费有限的存储资源。4、随着网页抓取量的增加,不相关的网页被下载,然后进行分析和过滤,导致算法效率低下。导航网页等,如果爬虫也抓取这些网址,也会造成网络资源和存储资源的浪费。,后续维护困难。3、 现有的网络爬虫首先抓取和下载网页,然后进行有效性分析。会下载大量不相关的网页,浪费有限的存储资源。4、随着网页抓取量的增加,不相关的网页被下载,然后进行分析和过滤,导致算法效率低下。会下载大量不相关的网页,浪费有限的存储资源。4、随着网页抓取量的增加,不相关的网页被下载,然后进行分析和过滤,导致算法效率低下。会下载大量不相关的网页,浪费有限的存储资源。4、随着网页抓取量的增加,不相关的网页被下载,然后进行分析和过滤,导致算法效率低下。
发明内容
为了克服现有技术算法效率低下的问题,容易抓取内容重复的网页,浪费资源和数据维护。
为了避免保护难的缺点,本发明提供了一种高效的算法,避免爬取内容重复的网页,资源和数据的浪费很少。
基于新闻去重的网络爬虫便捷维护方法。
基于新闻去重构建网络爬虫的方法包括以下步骤1),构建能够提取网页中新闻标题和内容的解析器,并使用解析器解析新闻网页;2),建立新闻网页集合,形成新闻集合;设置当前抓取的网页与新闻采集中的新闻网页的相似度阈值,相似度以内容重复程度为特征;3)。将当前抓取的新闻网页与新闻采集进行比较,判断两者之间的相似度是否高于阈值;4),如果相似度低于阈值,则将当前网页加入新闻采集,如果相似度高于阈值,丢弃新闻并抓取下一个网页;5),抓取当前网页的网址,判断该网址是否指向新闻网页,如果该网址不指向新闻网页,则丢弃该网址;如果指向新闻网页,则与存储访问URL的访问队列进行比较,判断该URL是否被访问过;6),如果是,如果访问队列中存在该URL,则丢弃该URL;如果访问队列中不存在该 URL,则将该 URL 存储在等待队列中;如果是,如果访问队列中存在该URL,则丢弃该URL;如果访问队列中不存在该 URL,则将该 URL 存储在等待队列中;如果是,如果访问队列中存在该URL,则丢弃该URL;如果访问队列中不存在该 URL,则将该 URL 存储在等待队列中;
7),从队列中提取URL依次访问;
8),重复步骤 1-9。进一步地,该解析器是通过学习多条新闻网站的HTML源代码框架构建的,
解析器对网页进行解析,得到新闻网页中实际的新闻标题和新闻内容。此外,步骤(3)由以下步骤组成(3. 1)使用中文分词技术提取新闻标题关键词的文本和每个key的权重这个词;(3. 2)根据经验,选择文本中权重最高的N个关键词组成(关键词,权重)的集合
合 C = {(,, w》, (t2, w2), (t3, w3), ......(tN, wN)}, 其中 &: 第 i 个关键词; Wi:第i个关键词的权重;(3. 3)将集合C中的元素按照权重Wi从大到小排序;每个子集&中的元素按照它们的关键词权重从大到小排序;设置C和&的相似度阈值,相似度由具有相同排序位置的两个集合决定(3.@ > 4)将集合C与新闻集中的每个&进行比较,判断它们的相似度是否高于阈值;如果高于阈值,则认为C是重复新闻;如果低于阈值,C被认为是非重复消息;(3. 5)将非重复性新闻添加到新闻采集中。
进一步地,如果(3.4)确定集合C为非重复新闻,则使用中文分词技术提取新闻内容文本,提取关键词和每个关键词在文本中,按顺序再次执行新闻的权重(3.2) to (3.4);如果判断还是不重复的新闻,那么这个新闻将被添加到新闻采集中。此外,所描述的步骤(5)判断URL是否指向新闻网页包括以下步骤(5. 1)批量抓取新闻网页) 网站 数据源) URL 作为训练集,使用除法
聚类算法将这些 URL 进行聚类,并将具有相同 URL 格式的 URL 归为一类;(5. 2) 构造一个可以根据 URL 的格式特征导出其正则表达式的 URL 解析器,使用 URL 解析器学习每一类 URL 的格式特征,得到每个类别;
(5. 3) 使用描述的URL解析器解析当前抓取的网页的URL,判断该网页是否具有新闻网页URL的格式特征;如果是,则认为该URL是指向新闻网页网址;如果不是,则认为该网址指向新闻以外的其他网页,丢弃该网址。本发明的技术思想是在网络爬虫之前过滤重复数据抓取网页避免重复数据
数据的下载减少了爬虫需要爬取的数据量,节省了存储资源;抓取网址时,爬虫首先判断网址
是否指向有效信息,过滤无关网页的URL,保证爬取数据的纯度和准确性,即下载
来的都是有效网页,算法效率高,有效降低网络资源消耗,存储资源浪费少;
只需要存储有效信息,减少数据存储量,降低后续数据维护难度。本发明具有算法效率高、避免爬取内容重复的网页、资源浪费少、数据维护方便的优点。
图1是本发明的总体流程图;图2当前抓取的新闻与新闻集合中的每条新闻进行对比的流程图
图3是当前抓取的新闻与新闻采集中的新闻对比的另一个流程图
图4是判断URL是否被访问过的流程图
详细方法
示例一
参考附图1、2、4 基于新闻去重的网络爬虫的构建方法,包括以下步骤
1、基于新闻去重的网络爬虫构建方法,包括以下步骤1),构建一个可以提取网页中新闻标题和内容的解析器,并使用解析器解析新闻网页;2),建立新闻页面集合,形成新闻集合;设置当前抓取的网页与新闻集合中的新闻页面的相似度阈值,相似度以内容重复程度为特征;3),将当前抓取的新闻网页与新闻集进行比较,判断两者之间的相似度是否高于阈值;(3. 1) 使用中文分词技术提取新闻标题关键词的正文和每个关键词的权重;(3. <
6-in C = {(,, w》, (t2, w2), (t3, w3), ......(tN, wN)}, 其中 &: i -th 关键词; Wi:第i个关键词的权重;(3. 3)根据权重Wi从大到小对集合C中的元素进行排序;采集新闻&的每个子集中的元素按照它们的关键词权重从大到小排序;设置C和&之间的相似度阈值,相似度按两个集合中的顺序相同的数字排序关键词 的要表征的位置;
与存储访问过的URL的访问队列进行比较,判断该URL是否被访问过;(5. 1)从各大网站数据源批量抓取新闻网页的网址作为训练集,用分区聚类算法对这些网址进行聚类,用将相同的 URL 格式归为一个类;(5. 2) 构造一个可以根据 URL 的格式特征导出其正则表达式的 URL 解析器,利用 URL 解析器学习每个类别的格式特征URL的,获取每个类别的正则表达式;数据源作为训练集,用分区聚类算法对这些URL进行聚类,将URL格式相同的URL聚类为一个类;(5. 2) 构造一个可以根据URL的格式特征导出其正则表达式的URL解析器,利用URL解析器学习每个类别URL的格式特征,得到正则表达式每个类别;数据源作为训练集,用分区聚类算法对这些URL进行聚类,将URL格式相同的URL聚类为一个类;(5. 2) 构造一个可以根据URL的格式特征导出其正则表达式的URL解析器,利用URL解析器学习每个类别URL的格式特征,得到正则表达式每个类别;
(53)使用URL解析器解析当前抓取的网页的URL,判断该网页是否具有新闻网页的URL的格式特征;如果有,则将此URL视为指向新闻的URL网页;如果不是,则认为该网址指向新闻以外的网页,丢弃该网址。6)。如果该网址存在于访问队列中,则丢弃该网址;如果该网址不存在于所述被访问队列中,将这个 URL 存储在一个等待队列中;
7),从队列中提取URL依次访问;
8),重复步骤 1-9。解析器是通过学习多条新闻网站的HTML源码框架构建的,
解析器解析网页,得到新闻网页中实际的新闻标题和新闻内容。
示例二
参考附图 1、3、4 本实施例与实施例一的区别在于,如果(3. 4)确定集合C为非重复消息,然后新闻正文采用中文分词技术提取正文中关键词和每个关键词的权重,依次执行(3.2)到(3.4);如果判断还是不重复的新闻,则将该新闻加入新闻集合,其余同。本说明书实施例中描述的内容只是一个列表本发明构思的实施形式,以及本发明的保护范围,不应视为仅限于实施例中所述的具体形式,并且本发明的保护范围也扩展到本领域技术人员基于本发明的构思所能想到的等同技术手段。
权限请求
基于新闻去重构建网络爬虫的方法包括以下步骤1),构建能够提取网页中新闻标题和内容的解析器,并使用解析器解析新闻网页;2)。构建新闻页面集合,形成新闻集合;设置当前抓取的网页与新闻采集中的新闻页面的相似度阈值,相似度以内容重复程度为特征;3)。将当前抓取的新闻网页与新闻采集进行比较,判断两者之间的相似度是否高于阈值;4),如果相似度低于阈值,则将当前网页加入新闻采集。如果相似度高于阈值,丢弃新闻,抓取下一个网页;5),抓取当前网页的网址,判断该网址是否指向新闻网页,如果该网址不指向新闻网页,则丢弃该网址;如果指向新闻网页,则与存储访问URL的访问队列进行比较,判断该URL是否被访问过;6),如果有该URL存在于访问队列中,则丢弃该URL;如果访问队列中不存在该 URL,则将该 URL 存储在等待队列中;7),从等待中从访问队列中一一提取URL进行访问;8),重复步骤 1-9。与存放访问过的URL的访问队列进行比较,判断该URL是否被访问过;6),如果有该URL存在于访问队列中,则丢弃该URL;如果访问队列中不存在该 URL,则将该 URL 存储在等待队列中;7),从等待中从访问队列中一一提取URL进行访问;8),重复步骤 1-9。与存放访问过的URL的访问队列进行比较,判断该URL是否被访问过;6),如果有该URL存在于访问队列中,则丢弃该URL;如果访问队列中不存在该 URL,则将该 URL 存储在等待队列中;7),从等待中从访问队列中一一提取URL进行访问;8),重复步骤 1-9。
2.根据权利要求1所述的基于新闻去重构建网络爬虫的方法,其特征在于,所述解析器是通过学习多个新闻网站HTML源代码框架构建的,结果解析器将网页解析成什么获取的是新闻网页中的实际新闻标题和新闻内容。
新闻集中按照他们的关键词权重从大到小排序;set C 和 Q 两组相似度之间的相似度阈值,所述相似度用两组相同排序位置的关键词的个数表示;(3. 4) Set C和每个新闻集比较每个&,判断它们的相似度是否高于阈值;如果高于阈值,则认为C是重复新闻;如果是低于阈值,C被认为是非重复新闻;(3. 5)将非重复新闻加入新闻集合。4) 集合C和每个新闻集比较每个&,判断它们的相似度是否高于阈值;如果高于阈值,则认为C是重复消息;如果低于阈值,则认为C是非重复新闻;(3. 5)添加非重复新闻到新闻采集。4) 集合C和每个新闻集比较每个&,判断它们的相似度是否高于阈值;如果高于阈值,则认为C是重复消息;如果低于阈值,则认为C是非重复新闻;(3. 5)添加非重复新闻到新闻采集。
4.根据权利要求3所述的基于新闻去重构建网络爬虫的方法,其特征在于,如果(3. 4)确定集合C为非重复新闻,则该新闻内容文本采用中文分词技术,提取文本中关键词和每个关键词的权重,按顺序再次执行(3.2)到(2)3.4);如果判断还是不重复的新闻,把这条新闻加入新闻采集。
使用所述的URL解析器解析当前抓取的网页的URL,判断该网页是否具有新闻网页的URL的格式特征;如果是,则认为该网址是指向新闻网页的网址;如果不是,则认为该网址指向的不是新闻的网页,丢弃该网址。
全文摘要
基于新闻去重构建网络爬虫的方法包括以下步骤:构建解析器来解析新闻网页;构建新闻采集;设置网页之间的相似度阈值;将当前抓取的新闻网页与新闻集进行比较,判断相似度是否高于阈值;如果低于阈值,则将当前网页加入新闻采集;如果高于阈值,则丢弃该新闻并抓取下一个网页;抓取当前网页的网址,判断该网址是否指向新闻网页,如果是,则判断该网址是否被访问过;如果没有,丢弃它;如果此 URL 已被访问,则丢弃此 URL;如果这个 URL 没有被访问过,它会被存储在等待队列中;从等待队列中提取 URL 以便访问;重复以上步骤。本发明具有算法效率高、避免爬取内容重复的网页、资源浪费少、数据维护方便的优点。
文件编号 G06F17/30GK101694658SQ2
公布日期 2010 年 4 月 14 日 申请日期 2009 年 10 月 20 日 优先权日期 2009 年 10 月 20 日
发明人:卜家军、李辉、梁雄军、陈伟、陈纯申请人:浙江大学;