scrapy分页抓取网页(：RSS阅读器分页信息分页分页(图))

优采云发布时间: 2021-11-11 17:19

　　专利名称：Rss信息分页抓取系统及方法

　　技术领域：

　　本发明涉及互联网技术领域，尤其涉及一种RSS信息的分页抓取系统及方法。

　　背景技术：

　　RSS（Simple Information Syndication，也称为聚合内容）是一种用于描述和同步网站内容的格式。RSS 可以是以下三种解释之一：真正简单的联合；RDF（资源描述框架）站点摘要；丰富的网站摘要。实际上，这三种解释指的是同一种 Syndication 技术。RSS 目前广泛用于在线新闻频道、博客和维基。主要版本有0.91、I.0、2.O。使用RSS订阅，获取信息更快。网站提供RSS输出，有利于用户获取网站内容的最新更新。网络用户可以使用客户端的RSS聚合工具软件阅读支持RSS输出的网站内容，无需打开网站内容页。其中，RSS订阅是站点与其他站点共享内容的一种简单方式。面对迎面而来的新闻，你不需要花大量时间从新闻网站上冲浪和下载，只需通过RSS阅读器就可以阅读大量信息。目前，RSS订阅主要有两种类型。第一个是用户通过RSS阅读器从RSS源站提取信息。这种方式需要用户主动添加RSS源。信息来源单一，RSS内容完全由源站决定。RSS源只推送信息摘要。如需查看详细信息，必须到原网页查看；二是用户订阅了一些第三方网站，第三方订阅站点预先从一些高质量的RSS源中提取信息，并进行一定的处理，返回给用户的是聚合后的信息。第二种订阅方式显然更能满足用户的阅读需求，但也存在问题。第三方订阅站点从RSS提要中提取信息时，假设提取的信息是文章的摘要，则从原文中提取。从链接中提取全文，但如果对原文内容进行分页，则只能提取第一页。第二种订阅方式显然更能满足用户的阅读需求，但也存在问题。第三方订阅站点从RSS提要中提取信息时，假设提取的信息是文章的摘要，则从原文中提取。从链接中提取全文，但如果对原文内容进行分页，则只能提取第一页。第二种订阅方式显然更能满足用户的阅读需求，但也存在问题。第三方订阅站点从RSS提要中提取信息时，假设提取的信息是文章的摘要，则从原文中提取。从链接中提取全文，但如果对原文内容进行分页，则只能提取第一页。

　　发明内容

　　本发明要解决的技术问题是如何提供一种RSS信息的分页抓取系统及方法，以保证在从RSS源中提取信息时能够识别分页并提取全文。为解决上述技术问题，本发明提供了一种RSS信息寻呼抓取系统，包括列表创建单元，用于采集带有寻呼的RSS频道，建立寻呼频道列表。列表分析单元，用于分析寻呼信道列表，获取每个RSS信道对应的寻呼标签；代码获取单元，用于在从RSS源页面代码中抓取信息时，如果当前信息源的目标RSS频道属于寻呼频道列表，则获取当前信息对应的信息。标签查找单元，用于在页面代码中查找目标RSS频道对应的页面标签；页面组合单元，用于根据找到的页面标签获取每个页面对应的页面，并组合每个页面Page对应的页面，得到完整的RSS信息。其中，列表分析单元还包括网页提取模块，用于依次取出被分页频道列表中的各个RSS频道，在RSS频道中找到被分页的网页。适配在页面代码中查找目标RSS频道对应的页面标签；页面组合单元，用于根据找到的页面标签获取每个页面对应的页面，并组合每个页面Page对应的页面，得到完整的RSS信息。其中，列表分析单元还包括网页提取模块，用于依次取出被分页频道列表中的各个RSS频道，在RSS频道中找到被分页的网页。适配在页面代码中查找目标RSS频道对应的页面标签；页面组合单元，用于根据找到的页面标签获取每个页面对应的页面，并组合每个页面Page对应的页面，得到完整的RSS信息。其中，列表分析单元还包括网页提取模块，用于依次取出被分页频道列表中的各个RSS频道，在RSS频道中找到被分页的网页。

　　标签对应模块，用于分析分页网页的页面代码，找到其中的分页标签作为对应的RSS频道。其中，代码获取单元还包括信息抓取模块，用于从RSS源抓取信息。判断模块，用于判断当前信息源的目标RSS频道是否属于分页频道列表；代码获取模块，用于当作为当前信息源的目标RSS频道属于寻呼频道列表时，获取当前信息对应的寻呼代码。其中，分页组合单元还包括URL获取模块，用于根据找到的分页标签获取每个页面的URL。提取每一页的文字；页面组合模块适用于对每个页面的文本进行组合以获得完整的RSS信息。其中，该系统还包括推送单元，用于向用户推送完整的RSS信息。本发明还提供了一种获取RSS信息的寻呼方法，包括：采集带有寻呼的RSS频道，建立寻呼频道列表。分析寻呼频道列表，得到每个RSS频道对应的寻呼标签；当从RSS源抓取信息时，如果作为当前信息源的目标RSS频道属于寻呼频道列表，则获取当前信息对应的页面代码；在页面代码中查找目标RSS频道对应的页面代码；根据搜索你得到的分页标签可以得到每个分页对应的页面，将每个分页对应的页面组合起来就可以得到完整的RSS信息。其中，分析寻呼频道列表，得到每个RSS频道对应的寻呼标签，具体包括依次取出寻呼频道列表中的每个RSS频道，在RSS频道中找到有寻呼的网页。分析所述带有分页的网页的页面代码，找到其中的分页标签作为对应RSS频道对应的分页标签。其中，当从RSS源抓取信息时，如果作为当前信息源的目标RSS频道属于寻呼频道列表，然后获取当前信息的页面代码具体包括从RSS源抓取信息，判断当前信息源的目标RSS频道是否属于寻呼频道列表，如果是，则获取当前对应的页面代码信息; 否则，认为当前信息对应的网页没有分页，流程结束。其中，所述根据找到的标签获取各个标签对应的页面，并结合各个标签对应的页面获取完整的RSS信息具体包括：根据找到的标签获取各个标签的URL。根据每个标签的URL获取每个标签的URL 分页的页面代码从页面代码中提取每个页面的文本；

　　其中，获取完整的RSS信息后，还包括向用户推送完整的RSS信息的步骤。本发明还提供了一种服务器，包括RSS信息分页抓取系统。本发明的RSS信息寻呼抓取系统及方法根据常用的RSS频道建立寻呼频道列表，获取每个RSS频道对应的寻呼标签，然后在对应的页面代码中查找对应的页面代码。从RSS源分页标签中抓取信息，根据分页标签获取每个页面的内容，从而获取完整的RSS信息，保证推送给用户的RSS信息的完整性，提高用户的阅读效率。

　　无花果。附图说明图1为本发明实施例一的RSS信息分页抓取系统的模块结构*敏*感*词*；

　　图2a b为页面标签对应的页面显示效果图；图3为列表分析单元模块结构*敏*感*词*；图4为代码获取单元模块结构*敏*感*词*；图5为页面组合单元模块结构*敏*感*词*；无花果。图6为本发明实施例二的RSS信息分页抓取系统的模块结构*敏*感*词*；无花果。图7为本发明实施例三提供的RSS信息分页抓取方法的流程图。

　　具体实施方式以下结合附图和实施例，对本发明的具体实施方式进行说明。

　　欲知详情。以下实施例用于说明本发明，但不用于限制本发明的范围。无花果。图1为本发明实施例一的RSS信息分页抓取系统的模块结构*敏*感*词*。如图所示。RSS频道一般指按内容类型划分的新闻频道、娱乐频道、生活休闲频道、阅读频道、下载频道、体育频道、游戏频道、音乐频道、视频频道、汽车频道、房地产等。频道和其他部分。由于网站的不同，这些频道的名称可能不同，频道之间的层次关系也可能不同。例如，在某些网站中，游戏频道可以作为娱乐频道的子频道出现。为方便起见，上述收录子频道的频道称为父频道。由于同一个网站中每个父频道下的网页采用相同的分页格式，因此本应用中的RSS频道可以对应父频道。一层不对应子信道向下。寻呼频道列表包括所有常见的带有寻呼功能的RSS频道，如新浪汽车频道、网易数字频道、搜狐军事频道等。列表分析单元200，用于对寻呼信道列表进行分析，得到每个RSS信道对应的寻呼标签。每个 RSS 频道对应一个分页标签。例如，图2a为新浪汽车频道分页标签对应的页面展示效果图。表Ia是分页标签对应的源代码。分页标签可以概括为类属性。是Pb的div标签；图2b为网易数字频道分页标签对应的页面显示效果图。表Ib是分页标签对应的源代码。分页标签可以概括为具有endPageNum的class属性的div标签。一般来说，一个RSS频道的所有网页信息，如果有分页，都会使用同一个标签。根据这种情况，可以建立一个RSS频道和标签的对应表。图2b为网易数字频道分页标签对应的页面显示效果图。表Ib是分页标签对应的源代码。分页标签可以概括为具有endPageNum的class属性的div标签。一般来说，一个RSS频道的所有网页信息，如果有分页，都会使用同一个标签。根据这种情况，可以建立一个RSS频道和标签的对应表。图2b为网易数字频道分页标签对应的页面显示效果图。表Ib是分页标签对应的源代码。分页标签可以概括为具有endPageNum的class属性的div标签。一般来说，一个RSS频道的所有网页信息，如果有分页，都会使用同一个标签。根据这种情况，可以建立一个RSS频道和标签的对应表。

　　表 Ia 新浪自动频道分页标签

　　权限请求

　　1. RSS信息的寻呼抓取系统，包括列表构建单元，适用于采集寻呼RSS频道，建立寻呼频道列表；列表分析单元，用于分析寻呼信道列表，得到RSS信道对应的A寻呼标签；代码获取单元，用于在从RSS源检索信息时，如果当前信息的源目标RSS频道属于寻呼频道列表，则获取当前信息对应的页面代码；查找单元，用于在页面代码中查找目标RSS频道对应的页面标签；页面合并单元，用于根据找到的页面标签获取每个页面对应的页面，

　　2.如权利要求1所述的系统，其特征在于，所述列表分析单元还包括网页提取模块，用于依次提取分页后的频道列表中的各个RSS频道，并找到该RSS频道一个带有分页标签的网页对应模块，用于分析分页网页的页面代码，找到其中的分页标签作为对应的RSS频道。

　　3.如权利要求1所述的系统，其特征在于，所述代码获取单元还包括信息抓取模块，用于抓取来自RSS源的信息；判断模块，用于判断当前信息的来源目标RSS频道是否属于寻呼频道列表；代码获取模块，用于当作为当前信息源的目标RSS频道属于寻呼频道列表时，获取当前信息对应的寻呼代码。

　　4.如权利要求1所述的系统，其特征在于，所述分页组合单元还包括URL获取模块，用于根据找到的分页标签获取每个页面的URL；正文获取模块，用于根据每个页面的URL获取URL，获取每个页面的页面代码，并从页面代码中提取出每个页面的文本；页面组合模块适用于对每个页面的文本进行组合以获得完整的RSS信息。

　　5.如权利要求1所述的系统，其特征在于，所述系统还包括推送单元，用于向用户推送完整的RSS信息。

　　6. 一种RSS信息的寻呼方法，包括采集带有寻呼的RSS频道和建立寻呼频道列表的步骤；分析寻呼频道列表，得到每个RSS频道对应的寻呼标签；获取信息时，如果当前信息来源的目标RSS频道属于寻呼频道列表，则获取当前信息对应的页面编码；在页面代码中找到目标RSS频道对应的分页标签；根据找到的分页标签获取每个分页对应的页面，将每个分页对应的页面组合起来得到完整的RSS信息。

　　7.如权利要求6所述的方法，其特征在于，所述分析寻呼频道列表，得到各个RSS频道对应的寻呼标签，具体包括依次提取寻呼频道列表Channel中的各个RSS频道，在RSS频道中找到带有分页的网页; 分析带有分页的网页的页面代码，找到分页标签作为对应的RSS频道。

　　8.如权利要求6所述的方法，其特征在于，当从RSS源捕获信息时，如果作为当前信息源的目标RSS频道属于寻呼频道列表，则当前信息的页面代码具体为包括从RSS源抓取信息，判断作为当前信息源的目标RSS频道是否属于寻呼频道列表，如果是，则获取当前信息对应的页面代码。否则，认为当前信息对应的网页没有分页，流程结束。

　　9.如权利要求6所述的方法，其特征在于，所述根据找到的页面标签获取各页面对应的页面，并组合各页面对应的页面以获取完整的RSS信息具体包括以下步骤：获取URL每个页面根据每个页面的URL；根据每个页面的URL获取每个页面的页面代码，从页面代码中提取每个页面的文本；结合每一页的文字，得到完整的RSS信息。

　　10.如权利要求6所述的方法，其特征在于，在获取完整RSS信息后，还包括向用户推送完整RSS信息的步骤。

　　11. 一种服务器，包括如权利要求1至5中任一项所述的RSS信息分页爬取系统。

　　全文摘要

　　本发明公开了一种RSS信息的页面抓取系统及方法。该系统包括列表创建单元，用于采集带有寻呼的RSS频道，建立寻呼频道列表；列表分析单元，用于分析寻呼信道列表，得到每个RSS信道对应的寻呼标签；代码获取单元，适用于在从RSS源抓取信息时，如果作为当前信息源的目标RSS频道属于寻呼频道列表，则获取当前信息对应的页面代码。标签查找单元，用于在页面代码中查找目标RSS频道对应的页面标签；页面合并单元用于根据找到的页面标签获取每个页面对应的页面，并将每个页面对应的页面组合起来，得到完整的RSS信息。本发明保证推送给用户的RSS信息的完整性，提高用户的阅读效率。

　　文件编号 G06F17/30GK102819613SQ20121031166

　　公布日期 2012 年 12 月 12 日申请日期 2012 年 8 月 28 日优先权日期 2012 年 8 月 28 日

　　发明人郑伟、赵刚申请人：、

0

2021-11-11

scrapy分页抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

scrapy分页抓取网页(：RSS阅读器分页信息分页分页(图))

0 个评论

发起人