scrapy分页抓取网页(:RSS阅读器分页信息分页分页(图))

优采云 发布时间: 2021-11-11 17:19

  scrapy分页抓取网页(:RSS阅读器分页信息分页分页(图))

  专利名称:Rss信息分页抓取系统及方法

  技术领域:

  本发明涉及互联网技术领域,尤其涉及一种RSS信息的分页抓取系统及方法。

  背景技术:

  RSS(Simple Information Syndication,也称为聚合内容)是一种用于描述和同步网站内容的格式。RSS 可以是以下三种解释之一: 真正简单的联合;RDF(资源描述框架)站点摘要;丰富的网站摘要。实际上,这三种解释指的是同一种 Syndication 技术。RSS 目前广泛用于在线新闻频道、博客和维基。主要版本有0.91、I.0、2.O。使用RSS订阅,获取信息更快。网站提供RSS输出,有利于用户获取网站内容的最新更新。网络用户可以使用客户端的RSS聚合工具软件阅读支持RSS输出的网站内容,无需打开网站 内容页。其中,RSS订阅是站点与其他站点共享内容的一种简单方式。面对迎面而来的新闻,你不需要花大量时间从新闻网站上冲浪和下载,只需通过RSS阅读器就可以阅读大量信息。目前,RSS订阅主要有两种类型。第一个是用户通过RSS阅读器从RSS源站提取信息。这种方式需要用户主动添加RSS源。信息来源单一,RSS内容完全由源站决定。RSS源只推送信息摘要。如需查看详细信息,必须到原网页查看;二是用户订阅了一些第三方网站,第三方订阅站点预先从一些高质量的RSS源中提取信息,并进行一定的处理,返回给用户的是聚合后的信息。第二种订阅方式显然更能满足用户的阅读需求,但也存在问题。第三方订阅站点从RSS提要中提取信息时,假设提取的信息是文章的摘要,则从原文中提取。从链接中提取全文,但如果对原文内容进行分页,则只能提取第一页。第二种订阅方式显然更能满足用户的阅读需求,但也存在问题。第三方订阅站点从RSS提要中提取信息时,假设提取的信息是文章的摘要,则从原文中提取。从链接中提取全文,但如果对原文内容进行分页,则只能提取第一页。第二种订阅方式显然更能满足用户的阅读需求,但也存在问题。第三方订阅站点从RSS提要中提取信息时,假设提取的信息是文章的摘要,则从原文中提取。从链接中提取全文,但如果对原文内容进行分页,则只能提取第一页。

  发明内容

  本发明要解决的技术问题是如何提供一种RSS信息的分页抓取系统及方法,以保证在从RSS源中提取信息时能够识别分页并提取全文。为解决上述技术问题,本发明提供了一种RSS信息寻呼抓取系统,包括列表创建单元,用于采集带有寻呼的RSS频道,建立寻呼频道列表。列表分析单元,用于分析寻呼信道列表,获取每个RSS信道对应的寻呼标签;代码获取单元,用于在从RSS源页面代码中抓取信息时,如果当前信息源的目标RSS频道属于寻呼频道列表,则获取当前信息对应的信息。标签查找单元,用于在页面代码中查找目标RSS频道对应的页面标签;页面组合单元,用于根据找到的页面标签获取每个页面对应的页面,并组合每个页面Page对应的页面,得到完整的RSS信息。其中,列表分析单元还包括网页提取模块,用于依次取出被分页频道列表中的各个RSS频道,在RSS频道中找到被分页的网页。适配在页面代码中查找目标RSS频道对应的页面标签;页面组合单元,用于根据找到的页面标签获取每个页面对应的页面,并组合每个页面Page对应的页面,得到完整的RSS信息。其中,列表分析单元还包括网页提取模块,用于依次取出被分页频道列表中的各个RSS频道,在RSS频道中找到被分页的网页。适配在页面代码中查找目标RSS频道对应的页面标签;页面组合单元,用于根据找到的页面标签获取每个页面对应的页面,并组合每个页面Page对应的页面,得到完整的RSS信息。其中,列表分析单元还包括网页提取模块,用于依次取出被分页频道列表中的各个RSS频道,在RSS频道中找到被分页的网页。

  标签对应模块,用于分析分页网页的页面代码,找到其中的分页标签作为对应的RSS频道。其中,代码获取单元还包括信息抓取模块,用于从RSS源抓取信息。判断模块,用于判断当前信息源的目标RSS频道是否属于分页频道列表;代码获取模块,用于当作为当前信息源的目标RSS频道属于寻呼频道列表时,获取当前信息对应的寻呼代码。其中,分页组合单元还包括URL获取模块,用于根据找到的分页标签获取每个页面的URL。提取每一页的文字;页面组合模块适用于对每个页面的文本进行组合以获得完整的RSS信息。其中,该系统还包括推送单元,用于向用户推送完整的RSS信息。本发明还提供了一种获取RSS信息的寻呼方法,包括:采集带有寻呼的RSS频道,建立寻呼频道列表。分析寻呼频道列表,得到每个RSS频道对应的寻呼标签;当从RSS源抓取信息时,如果作为当前信息源的目标RSS频道属于寻呼频道列表,则获取当前信息对应的页面代码;在页面代码中查找目标RSS频道对应的页面代码;根据搜索你得到的分页标签可以得到每个分页对应的页面,将每个分页对应的页面组合起来就可以得到完整的RSS信息。其中,分析寻呼频道列表,得到每个RSS频道对应的寻呼标签,具体包括依次取出寻呼频道列表中的每个RSS频道,在RSS频道中找到有寻呼的网页。分析所述带有分页的网页的页面代码,找到其中的分页标签作为对应RSS频道对应的分页标签。其中,当从RSS源抓取信息时,如果作为当前信息源的目标RSS频道属于寻呼频道列表,然后获取当前信息的页面代码具体包括从RSS源抓取信息,判断当前信息源的目标RSS频道是否属于寻呼频道列表,如果是,则获取当前对应的页面代码信息; 否则,认为当前信息对应的网页没有分页,流程结束。其中,所述根据找到的标签获取各个标签对应的页面,并结合各个标签对应的页面获取完整的RSS信息具体包括:根据找到的标签获取各个标签的URL。根据每个标签的URL获取每个标签的URL 分页的页面代码从页面代码中提取每个页面的文本;

  其中,获取完整的RSS信息后,还包括向用户推送完整的RSS信息的步骤。本发明还提供了一种服务器,包括RSS信息分页抓取系统。本发明的RSS信息寻呼抓取系统及方法根据常用的RSS频道建立寻呼频道列表,获取每个RSS频道对应的寻呼标签,然后在对应的页面代码中查找对应的页面代码。从RSS源分页标签中抓取信息,根据分页标签获取每个页面的内容,从而获取完整的RSS信息,保证推送给用户的RSS信息的完整性,提高用户的阅读效率。

  无花果。附图说明图1为本发明实施例一的RSS信息分页抓取系统的模块结构*敏*感*词*;

  图2a b为页面标签对应的页面显示效果图;图3为列表分析单元模块结构*敏*感*词*;图4为代码获取单元模块结构*敏*感*词*;图5为页面组合单元模块结构*敏*感*词*;无花果。图6为本发明实施例二的RSS信息分页抓取系统的模块结构*敏*感*词*;无花果。图7为本发明实施例三提供的RSS信息分页抓取方法的流程图。

  具体实施方式以下结合附图和实施例,对本发明的具体实施方式进行说明。

  欲知详情。以下实施例用于说明本发明,但不用于限制本发明的范围。无花果。图1为本发明实施例一的RSS信息分页抓取系统的模块结构*敏*感*词*。如图所示。RSS频道一般指按内容类型划分的新闻频道、娱乐频道、生活休闲频道、阅读频道、下载频道、体育频道、游戏频道、音乐频道、视频频道、汽车频道、房地产等。频道和其他部分。由于网站的不同,这些频道的名称可能不同,频道之间的层次关系也可能不同。例如,在某些 网站 中,游戏频道可以作为娱乐频道的子频道出现。为方便起见,上述收录子频道的频道称为父频​​道。由于同一个网站中每个父频道下的网页采用相同的分页格式,因此本应用中的RSS频道可以对应父频道。一层不对应子信道向下。寻呼频道列表包括所有常见的带有寻呼功能的RSS频道,如新浪汽车频道、网易数字频道、搜狐军事频道等。列表分析单元200,用于对寻呼信道列表进行分析,得到每个RSS信道对应的寻呼标签。每个 RSS 频道对应一个分页标签。例如,图2a为新浪汽车频道分页标签对应的页面展示效果图。表Ia是分页标签对应的源代码。分页标签可以概括为类属性。是Pb的div标签;图2b为网易数字频道分页标签对应的页面显示效果图。表Ib是分页标签对应的源代码。分页标签可以概括为具有endPageNum的class属性的div标签。一般来说,一个RSS频道的所有网页信息,如果有分页,都会使用同一个标签。根据这种情况,可以建立一个RSS频道和标签的对应表。图2b为网易数字频道分页标签对应的页面显示效果图。表Ib是分页标签对应的源代码。分页标签可以概括为具有endPageNum的class属性的div标签。一般来说,一个RSS频道的所有网页信息,如果有分页,都会使用同一个标签。根据这种情况,可以建立一个RSS频道和标签的对应表。图2b为网易数字频道分页标签对应的页面显示效果图。表Ib是分页标签对应的源代码。分页标签可以概括为具有endPageNum的class属性的div标签。一般来说,一个RSS频道的所有网页信息,如果有分页,都会使用同一个标签。根据这种情况,可以建立一个RSS频道和标签的对应表。

  表 Ia 新浪自动频道分页标签

  权限请求

  1. RSS信息的寻呼抓取系统,包括列表构建单元,适用于采集寻呼RSS频道,建立寻呼频道列表;列表分析单元,用于分析寻呼信道列表,得到RSS信道对应的A寻呼标签;代码获取单元,用于在从RSS源检索信息时,如果当前信息的源目标RSS频道属于寻呼频道列表,则获取当前信息对应的页面代码;查找单元,用于在页面代码中查找目标RSS频道对应的页面标签;页面合并单元,用于根据找到的页面标签获取每个页面对应的页面,

  2.如权利要求1所述的系统,其特征在于,所述列表分析单元还包括网页提取模块,用于依次提取分页后的频道列表中的各个RSS频道,并找到该RSS频道一个带有分页标签的网页对应模块,用于分析分页网页的页面代码,找到其中的分页标签作为对应的RSS频道。

  3.如权利要求1所述的系统,其特征在于,所述代码获取单元还包括信息抓取模块,用于抓取来自RSS源的信息;判断模块,用于判断当前信息的来源目标RSS频道是否属于寻呼频道列表;代码获取模块,用于当作为当前信息源的目标RSS频道属于寻呼频道列表时,获取当前信息对应的寻呼代码。

  4.如权利要求1所述的系统,其特征在于,所述分页组合单元还包括URL获取模块,用于根据找到的分页标签获取每个页面的URL;正文获取模块,用于根据每个页面的URL获取URL,获取每个页面的页面代码,并从页面代码中提取出每个页面的文本;页面组合模块适用于对每个页面的文本进行组合以获得完整的RSS信息。

  5.如权利要求1所述的系统,其特征在于,所述系统还包括推送单元,用于向用户推送完整的RSS信息。

  6. 一种RSS信息的寻呼方法,包括采集带有寻呼的RSS频道和建立寻呼频道列表的步骤;分析寻呼频道列表,得到每个RSS频道对应的寻呼标签;获取信息时,如果当前信息来源的目标RSS频道属于寻呼频道列表,则获取当前信息对应的页面编码;在页面代码中找到目标RSS频道对应的分页标签;根据找到的分页标签获取每个分页对应的页面,将每个分页对应的页面组合起来得到完整的RSS信息。

  7.如权利要求6所述的方法,其特征在于,所述分析寻呼频道列表,得到各个RSS频道对应的寻呼标签,具体包括依次提取寻呼频道列表Channel中的各个RSS频道,在RSS频道中找到带有分页的网页; 分析带有分页的网页的页面代码,找到分页标签作为对应的RSS频道。

  8.如权利要求6所述的方法,其特征在于,当从RSS源捕获信息时,如果作为当前信息源的目标RSS频道属于寻呼频道列表,则当前信息的页面代码具体为包括从RSS源抓取信息,判断作为当前信息源的目标RSS频道是否属于寻呼频道列表,如果是,则获取当前信息对应的页面代码。否则,认为当前信息对应的网页没有分页,流程结束。

  9.如权利要求6所述的方法,其特征在于,所述根据找到的页面标签获取各页面对应的页面,并组合各页面对应的页面以获取完整的RSS信息具体包括以下步骤: 获取URL每个页面根据每个页面的URL;根据每个页面的URL获取每个页面的页面代码,从页面代码中提取每个页面的文本;结合每一页的文字,得到完整的RSS信息。

  10.如权利要求6所述的方法,其特征在于,在获取完整RSS信息后,还包括向用户推送完整RSS信息的步骤。

  11. 一种服务器,包括如权利要求1至5中任一项所述的RSS信息分页爬取系统。

  全文摘要

  本发明公开了一种RSS信息的页面抓取系统及方法。该系统包括列表创建单元,用于采集带有寻呼的RSS频道,建立寻呼频道列表;列表分析单元,用于分析寻呼信道列表,得到每个RSS信道对应的寻呼标签;代码获取单元,适用于在从RSS源抓取信息时,如果作为当前信息源的目标RSS频道属于寻呼频道列表,则获取当前信息对应的页面代码。标签查找单元,用于在页面代码中查找目标RSS频道对应的页面标签;页面合并单元用于根据找到的页面标签获取每个页面对应的页面,并将每个页面对应的页面组合起来,得到完整的RSS信息。本发明保证推送给用户的RSS信息的完整性,提高用户的阅读效率。

  文件编号 G06F17/30GK102819613SQ20121031166

  公布日期 2012 年 12 月 12 日 申请日期 2012 年 8 月 28 日 优先权日期 2012 年 8 月 28 日

  发明人郑伟、赵刚申请人:、

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线