日本街头高中生的数据采集工具“官方实战”分享
优采云 发布时间: 2021-07-20 18:03日本街头高中生的数据采集工具“官方实战”分享
采集工具“官方实战”已经在刚过去的暑假,为大家带来了许多新鲜又实用的官方实战,这次给大家带来的是日本街头高中生们的数据采集。这是一个十分轻量级的采集项目,采集就可以用requests库了,因为很有代表性,也不会有过多的注释,整个项目基本上以关键字为单位,主要包括路径采集、验证码采集、收入统计、转换为国家列表等功能。
路径采集网址:/cn/high/management/cn/joe/skype然后我们在google中输入joesui,你就可以看到路径的采集结果。之后,我们在google的synclibrary(实时库)的页面获取了数据。例如,我们可以搜索这些数据。考虑到了采集新功能,我们可以从google获取整个数据库,这样对比单一维度的数据就比较方便。
验证码采集网址:joesui2.0在这里我们使用了生成验证码的api,这个api可以很简单快速的把获取到的验证码自动转化为上图中的灰度图片,再打开地址url文件。但是需要注意的是:这个api只能用于普通用户验证码的生成,也就是说你无法直接在app中生成验证码。要获取这个api,可以在requestsjs的generator脚本中的generate_full_captcha_id.py文件中可以看到,用户点击获取验证码并且生成编码后才是授权码,验证码会自动删除掉。
而如果你还需要验证码批量生成功能,那么我们需要用到java自己的验证码api库:这个api有两个for循环,第一个循环是java和ruby的循环类型交换,第二个循环是把ruby的parse函数写到另一个循环里面去,这两个循环都不会对外暴露。ruby的这个api可以从类scheme。总结:由于验证码只能用java来写,而java大家都知道,这个网站的验证码代码写起来非常烦,所以其实我们可以省去这步,直接把验证码变成php代码的方式来采集,采集完之后再把它写到java文件里也方便用户做二次封装。
另外,对于验证码的生成,可以使用api生成,也可以生成预设的验证码。收入统计网址:/cn/high/management/cn/joe/skype这里用到了sleep()函数。这里的收入来源于用户的投票总数。由于sleep()函数可以阻止chrome下的所有计算机继续运行,所以现在我们用另一个节点替换了原来的节点。
详细教程可以关注我们公众号“joezhuoo”查看。验证码的生成其实也是一个筛选的过程,只不过方便了我们,只要有同意和同意不同意两种情况就可以了。转换成国家列表网址:/cn/high/management/cn/joe/skype这里用到了代理的iptables和proxyeditor,iptables我们之前有。