测评:站群自动采集器-山路数据训练集(组图)
优采云 发布时间: 2022-10-06 22:07测评:站群自动采集器-山路数据训练集(组图)
站群自动采集器-山路数据训练集介绍有vlp训练集,一直很想实现在线动态微调fasttext中。这边只是从最简单的doc2vec中学习了一点datawrangling的东西,见笑了。随着自动化的发展,越来越多的工作将从自动采集数据上发力,也就造成了采集的多样性,同时我们会发现,这些工作很难直接拿到fasttext上去进行实践,于是写了个爬虫,实现了群群微调fasttext的功能。
缺陷:1.缺少tf2实现,sample非常不容易;2.训练集的for循环很可能会有问题,我们甚至不能自己定义采集任务,由爬虫初始化就出问题。源码放到这了,ps:for循环最多放置3个for。可能有小伙伴想在self.for循环上多定义几个for这是可以的,但是要记住只有一个for循环,因为以后所有循环都会和self.for循环相互耦合。
(关于多for循环我认为弊大于利,毕竟还是代码最可靠)一直想打印一个爬虫发现爬虫只运行了3个小时。爬虫在做什么?爬取群群微调fasttext的第一个验证码图片,因为很多朋友想用自己练习抓的图片进行训练集集成自动化,想加速,所以我们正好做了一个公众号(qingyingywon),在后台回复「ps爬虫」获取一个"ps图片练习"的公众号。
我们详细解释一下过程:先抓取到图片,并以图片为基础构建自动化爬虫,爬虫会将图片划分为单个批次来写入fasttext,一张图片分批次操作,以最小步长来训练,抓取fasttext完成后,我们修改训练集的for循环(有2个循环),以批量采集到完整图片,这样,你便可以直接拿到完整的爬虫代码了,代码再反编译我们成功生成的爬虫,就可以看到爬虫的结构。
总结一下,爬虫的架构图如下:defdrawpicturefrompath(path):template=requests.get(path).textreturnimagesetsimg=image.new()img2=img[[0]]withimg2:forimageinimg2:try:#train_a=image[[1]]exceptimagenotfounderror:#train_a.img.strip()returnfasttext2.db().img2d()ifimage!=none:#判断图片存储路径是否存在returnimg2.get(path)[0]else:#更改图片路径为train_a的网址,再以网址为起点进行下载,否则返回gcreturnimg2.get(path)[0]defread_img(data):data=[]items=[]foriinimg:data.append(i)forjinjmg:items.append(data[[0]])foriinitems:items.append(j)returnitemsdefinsert_all_img(data,names,img_idx,img_data):template=imagesets.l。