抓取网页新闻(一种基于新闻列表实时抓取方法,全部详细技术资料下载)

优采云 发布时间: 2022-03-30 17:09

  抓取网页新闻(一种基于新闻列表实时抓取方法,全部详细技术资料下载)

  一种基于新闻列表的实时抓取方法,包括以下步骤:输入新闻列表页面地址;读取和访问网页数据;获取地址列表;分别存储在数据库和缓存中;子地址的数量;抓取网站地址中的内文内容;存储抓取到的文字内容,在原有爬虫技术的基础上加入缓存技术,避免重复抓取网站列表,也可以在短时间内获取最新的新闻列表数据。

  下载所有详细的技术数据

  【技术实现步骤总结】

  一种基于新闻列表的实时爬取方法

  该专利技术涉及一种基于新闻列表的实时抓取方法。

  技术介绍

  网络爬虫是一种自动从 Internet 采集信息的程序。通过网络爬虫,不仅可以为搜索引擎提供采集网络信息,还可以作为目标信息采集器,针对特定网站下的特定信息采集。目前,传统意义上的爬虫并不能保证实时的数据爬取。在爬取过程中,会出现重复爬取,从而延长了搜索时间,降低了数据检索的效率。

  技术实现思路

  针对上述不足,本专利技术要解决的技术问题是提供一种基于新闻列表的实时爬取方法,用于提高网页的检索效率。为了解决上述技术问题,本专利技术采用的技术方案是一种基于新闻列表的实时抓取方法,包括以下步骤:(1)输入新闻列表页地址; (2)读取,访问网页数据;(3)获取地址列表;(4)分别存入数据库和缓存;(5)从缓存中读取地址) ,通过数据库判断子地址的个数;(6)抓取网站的地址中的文字内容;(7)存放抓取的文字内容。本专利技术在采用上述技术方案的同时,还采用或结合了以下技术方案。完成步骤(6)中网站的地址捕获后,将捕获到的网站地址的地址标记为已捕获,返回步骤(4)@ >.当step(5)输出的地址个数为0时,返回step(2);当step(5)输出的地址个数不为0时,跳转到步骤(6)。抓取方法还包括数据更新方法和数据查询方法。数据查询方法包括以下步骤,数据查询方法包括以下步骤:1)从缓存;2) 请求路由到对应的内存队列,交给队列处理;3) 判断是否可以从缓存中取回数据;4)如果无法检索到数据,从数据库中查询;5)判断数据库中是否存在数据;6)如果有数据,创建强制刷新缓存请求,加入队列;7)内存队列处理数据;8)如果没有数据,则数据挂起,不做任何处理,处于等待状态;当步骤 3) @6)如果有数据,创建强制刷新缓存请求,加入队列;7)内存队列处理数据;8)如果没有数据,则数据挂起,不做任何处理,处于等待状态;当步骤 3) @6)如果有数据,创建强制刷新缓存请求,加入队列;7)内存队列处理数据;8)如果没有数据,则数据挂起,不做任何处理,处于等待状态;当步骤 3)

  数据更新方法包括以下步骤,1)删除缓存中的数据;2)更新数据库中的数据。该专利技术的有益效果是,在原有爬虫技术的基础上加入缓存技术,可以避免对网站列表的重复爬取,在较短时间内获取最新的新闻列表数据的时间。附图说明图。图1是本专利技术的流程图。图2是数据查询流程图。具体实施方式下面结合附图对本专利技术进行进一步说明。一种基于新闻列表的实时爬取方法,包括以下步骤:(1)输入新闻列表页面地址;(< @2) 读取和访问网页数据;(3)获取地址列表;(4)分别存入数据库和缓存;(5)从缓存中读取地址,通过数据库确定子地址个数,并确保数据库与缓存同步;(6)抓取网站地址中的内文内容;(7)存储抓取的文本内容。步骤后(6)@ > 在网站地址抓取完成,抓取到的网站地址将地址状态标记为已抓取,返回步骤(4),执行循环从用于页面爬取的缓存数据库,当缓存数据库中待爬取地址的状态为 0 时,程序请求地址列表页面地址,并继续获取列表子页面。当获取到的地址重复时,程序挂起,否则请求继续。当步骤(5)输出的地址数为0时,返回步骤(5)@2);当步骤(5)输出的地址数不为0时,继续到步骤(6)。抓取方法还包括数据更新方法和数据查询方法。

  数据查询方法包括以下步骤: 1)从缓存中取数据;2)请求被路由到对应的内存队列,交给队列处理;3)判断是否可以从缓存中获取4)如果获取不到数据,则从数据库中查询;5)判断数据库中是否存在数据;6)如果有数据,创建强制刷新缓存请求,并加入队列;7)内存队列处理数据;8)如果没有数据,则数据挂起,不做任何处理,处于等待状态;当步骤3)中可以得到对应的数据时,直接将数据送入内存队列进行数据处理。在步骤 6) 中,如果无法从缓存中取出数据,则等待20毫秒,强制刷新缓存,在缓存和数据库之间同步数据,然后再次取出数据。如果 200 毫秒后无法取数据,则取数据库,强制刷新缓存数据。数据更新方法包括以下步骤,1)删除缓存中的数据;2)更新数据库中的数据。在一些优选的方式中,在进行数据查询时,为每个查询对象设置一个ID标志位,并在查询过程中对ID标志位进行判断。如果ID标志位存在,则判断ID标志位是真还是假,如果是假,则结束,进行下一次查询。如果为True,则刷新数据库缓存;如果 ID 标志不存在,

  【技术保护点】

  1.一种基于新闻列表的实时抓取方法,其特征在于包括以下步骤:(1)输入新闻列表页地址;(2)读取并访问)网页数据;(2)@3)获取地址列表;(4)分别存储在数据库和缓存中;(5)从缓存中读取地址,判断通过数据库的子地址个数;(6)Capture获取网站的地址中的文本内容;(7)存储捕获的文本内容。

  【技术特点总结】

  1.一种基于新闻列表的实时抓取方法,其特征在于包括以下步骤:(1)输入新闻列表页地址;(2)读取并访问)网页数据;(2)@3)获取地址列表;(4)分别存储在数据库和缓存中;(5)从缓存中读取地址,判断通过数据库的子地址个数;(6)Capture获取网站的地址内的文本内容;(7)存储抓取的文本内容。2.一个真实的2.根据权利要求1所述的基于新闻列表的时间抓取方法,其特征在于,在步骤(6)中对网站的地址的抓取完成后,将被抓取的地址网站 被标记为已被捕获,2.根据权利要求1所述的一种基于新闻列表的实时抓取方法,其特征在于,当步骤(4).3. @5)为0,返回步骤(2);当步骤(5)输出的地址个数不为0时,执行步骤(6).4.@ > 根据权利要求1所述的基于新闻列表的实时抓取方法,其特征在于,所述抓取方法还包括数据更新方法...执行步骤(6).4.@>根据权利要求1所述的一种基于新闻列表的实时抓取方法,其特征在于,所述抓取方法还包括数据更新方法...执行步骤(6).4.@>根据权利要求1所述的一种基于新闻列表的实时抓取方法,其特征在于,所述抓取方法还包括数据更新方法...

  【专利技术性质】

  技术研发人员:北超、

  申请人(专利权)持有人:,

  类型:发明

  国家、省、市:北京,11

  下载所有详细的技术数据 我是该专利的所有者

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线