网站内容采集( 互联网数据处理常规新闻网页采集程序工作原理及技术领域介绍)

优采云发布时间: 2021-11-11 15:06

　　网站内容采集(

互联网数据处理常规新闻网页采集程序工作原理及技术领域介绍)

　　一种自动采集网页内容的方法

　　【技术领域】

　　[0001] 本发明公开了一种网页内容自动采集的方法，涉及互联网数据处理技术领域。

　　【背景技术】

　　[0002] 随着科学技术的进步，互联网信息进入了一个爆炸式的多元化时代。互联网已经成为一个巨大的信息库。互联网信息采集可以让你在资金利用和人力投入方面节省大量资源，广泛应用于行业门户网站信息采集、竞争对手情报数据采集、< @网站内容体系建设、垂直搜索、舆情监测、科研等领域。

　　[0003] 以新闻网页为例，常规新闻网页内容采集程序在工作时，依赖于人工为各个不同的新闻站点提供页面分析模板，定义新闻网页中所有有效数据项在格式定义文件Xpath中，如新闻标题、正文、作者、发布时间。维护新闻站点的页面解析模板很枯燥，采集程序覆盖的站点越多，工作量就越大。而且，如果新闻站点被改版，原来的页面解析模板文件会“过期”，需要重新排序。但是，通常很难及时找到并重新订购。因此，一旦新闻网站被修改，必须先被发现，然后才能被发现。, 这些新闻网站的数据会出现异常甚至丢失。

　　[0004] 现有新闻网站由于格式多样化、数据量爆炸式膨胀、监控严密等原因，采集难度较大，主要表现在：

　　[0005] 1、需要手动配置新闻网页分析模板，制定相应信息的xpath。

　　[0006] 2、网站信息量大，规则难以统一制定。一般每个站点单独配置分析模板，工作量大；

　　[0007]3、随后带来了大量的规则维护工作，以及网站改版后规则实时更新的问题；

　　[0008]4、如果不能及时发现新闻站点改版，那么这些新闻站点采集的数据就会出现异常。

<p>[0009] 现有的常规新闻网页采集都需要为所有站点定制和分析模板。所有的定制和后续的维护都是繁琐乏味的，如果不能及时适应网站改版，就不会生效。

0

2021-11-11

网站内容采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集( 互联网数据处理常规新闻网页采集程序工作原理及技术领域介绍)

0 个评论

发起人

AI时代内容工厂

网站内容采集( 互联网数据处理常规新闻网页采集程序工作原理及技术领域介绍)

0 个评论

发起人

相关问题