分享文章:内容采集器的计算方法,推荐一篇日志采集的文章
优采云 发布时间: 2022-10-31 09:20分享文章:内容采集器的计算方法,推荐一篇日志采集的文章
内容采集器的计算方法,推荐一篇日志采集的文章你需要对采集规则、操作设定、采集粒度、接口、返回接口进行初步研究。文章主要是针对初学者在设计采集规则时所要注意的几个方面进行阐述。
一、规则设定必须分清采集结果与显示结果的区别要充分理解返回接口和采集结果之间的关系,需要明确知道后续设计返回接口时所采用的规则。通常来说,后续设计者需要明确表明返回结果的内容。即返回结果必须对后续设计者有用,才能明确为何返回这种内容。首先,最重要的一点,需要分清采集结果与显示结果的区别。正确区分采集结果与显示结果至关重要,因为采集的结果在网页上,比如手机客户端上是展示在你的阅读内容,或者你实际打开网页进行体验后是一个html/javascript页面。
这时候用一个简单的函数就可以将返回结果转换为展示结果。比如采集知乎回答问题所需要的几种网页函数---采集知乎全部回答以及知乎回答分页的对应图片和数据,这种对于返回结果的处理,主要区别在于所返回结果与呈现结果的差异,不在于返回结果的位置和数量。其次,相信大部分的采集者都可以理解这种差异:一般来说,显示结果我们可以把它当作数据,直接从服务器接收调用一个已经提供的json/xml格式的javascript页面访问;而采集结果只是一种概念,比如百度搜索搜索“古代人”,返回的数据是以人类生物图谱的形式显示出来的。
采集结果之所以可以直接调用,是由于手机浏览器和电脑浏览器所显示的页面结构大部分完全不同,但是只要被网站已经实现网页端内容和非网页端内容混排的接口,在网页端我们就可以直接从网页端获取需要的内容。
不论是在ie
6、ie7还是ie8上,我们调用的api名称一样的,返回的结果也是一样的。
目前这几种具体的操作方法大致如下:调用ie接口发起请求;ie接口每3分钟更新一次;浏览器对应页面推荐json内容;手机接口,
三、采集数据的关键要素确定采集中以产生数据方式的不同网页、不同的文件位置、不同的模式,采集过程的节点等,
1、数据采集规则首先,我们确定采集规则的目的是什么,如果无目的,无实际需求,则不需要确定采集规则。
2、采集粒度考虑影响采集的数据类型,如文本类采集就按照文本、数字、汉字三种表征类型进行采集,并且采集深度的问题。
3、采集接口(确定实现用途)不同的采集中,大体有两种接口,一种为业务接口,由业务方提供具体数据,比如将搜索数据返回html页面、商品统计接口将某个商品拉下来,