网站内容采集( 互联网数据处理常规新闻网页采集程序工作原理及技术领域介绍)

优采云 发布时间: 2021-11-11 15:06

  网站内容采集(

互联网数据处理常规新闻网页采集程序工作原理及技术领域介绍)

  一种自动采集网页内容的方法

  【技术领域】

  [0001] 本发明公开了一种网页内容自动采集的方法,涉及互联网数据处理技术领域。

  【背景技术】

  [0002] 随着科学技术的进步,互联网信息进入了一个爆炸式的多元化时代。互联网已经成为一个巨大的信息库。互联网信息采集可以让你在资金利用和人力投入方面节省大量资源,广泛应用于行业门户网站信息采集、竞争对手情报数据采集、< @网站 内容体系建设、垂直搜索、舆情监测、科研等领域。

  [0003] 以新闻网页为例,常规新闻网页内容采集程序在工作时,依赖于人工为各个不同的新闻站点提供页面分析模板,定义新闻网页中所有有效数据项在格式定义文件Xpath中,如新闻标题、正文、作者、发布时间。维护新闻站点的页面解析模板很枯燥,采集程序覆盖的站点越多,工作量就越大。而且,如果新闻站点被改版,原来的页面解析模板文件会“过期”,需要重新排序。但是,通常很难及时找到并重新订购。因此,一旦新闻网站被修改,必须先被发现,然后才能被发现。, 这些新闻网站的数据会出现异常甚至丢失。

  [0004] 现有新闻网站由于格式多样​​化、数据量爆炸式膨胀、监控严密等原因,采集难度较大,主要表现在:

  [0005] 1、 需要手动配置新闻网页分析模板,制定相应信息的xpath。

  [0006] 2、网站信息量大,规则难以统一制定。一般每个站点单独配置分析模板,工作量大;

  [0007]3、随后带来了大量的规则维护工作,以及网站改版后规则实时更新的问题;

  [0008]4、如果不能及时发现新闻站点改版,那么这些新闻站点采集的数据就会出现异常。

<p>[0009] 现有的常规新闻网页采集都需要为所有站点定制和分析模板。所有的定制和后续的维护都是繁琐乏味的,如果不能及时适应网站改版,就不会生效。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线