如何把一个页面采集成为poc格式需要研究包含大量接口

优采云发布时间: 2021-07-07 19:01

　　自动采集系统基础功能介绍自动采集是一套主要基于webrequestapi和nodejs的开发框架，是一套高效实用、带有日志分析、权限管理等功能的api服务。类似于传统手动采集的效率，手动采集要按照每一个参数搜索相应的页面来查找页面，这个过程耗时较长且存在被发现的概率和误操作的风险。自动采集则是完全采用网页服务端的方式来采集网页，并将自动出现的结果直接响应给客户端。

　　目前主流的采集器除了基础的浏览器api接口外，还有一些开源的采集工具，比如如果按照速度上来排序，pin站点采集器速度是最快的。而我们采用的自动采集器，速度是相对比较慢，不过胜在功能很强大且上手比较简单。页面比对方面，pin是完全基于scrapy，页面采集完毕，要将数据转换成json格式，是不可能有正则表达式的，但是采用了页面采集器功能，可以直接转换成json格式，这个就很方便了。

　　而在转换质量上来说，以点击率算（页面采集器最主要的功能），确实pin是远胜于poc的，但是因为采用poc加上网页压缩技术，就产生了问题：页面采集器数据压缩后的速度并不快，需要等待开发人员去解压缩。接下来解决这个问题，就是我们要关注的，即页面采集器和poc的结合。以poc为例，他最大的问题就是生成的代码比较少，大大降低了开发人员的时间，也大大降低了速度。

　　如何把一个页面采集成为poc格式需要研究包含大量的接口函数，这样有利于学习。页面采集器的实现是基于http请求中的header，根据接口条件，按照header来匹配数据，不同的接口有不同的匹配方式。比如，在python中，有以下两种url规则来匹配http请求中的参数：range(len(header),start(start(header)))匹配前端主机(此接口仅限http，但是客户端可以用于所有的请求协议)url(list(header),andany)匹配参数中包含httptoken(此接口仅限http,但是客户端可以用于所有的请求协议)我们看这个简单的例子：frompythonimportrequestimportjson#创建headerheader={'user-agent':'mozilla/5.0(windowsnt6.1;wow64)applewebkit/537.36(khtml,likegecko)chrome/73.0.3578.100safari/537.36'}#创建script文件file_path='/users/boalrew/desktop/test0.py'json_file=''file_result=json.loads(file_path)soup=beautifulsoup(json_file,'lxml')text=request.urlopen('').read()#封装urlpage=json_file.read()[1]#给所有节点。

0

2021-07-07

自动采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何把一个页面采集成为poc格式需要研究包含大量接口

0 个评论

发起人

AI时代内容工厂

如何把一个页面采集成为poc格式需要研究包含大量接口

0 个评论

发起人

相关问题