百度云、大姨妈、字节跳动的电商数据采集教程
优采云 发布时间: 2021-04-26 06:00百度云、大姨妈、字节跳动的电商数据采集教程
文章采集工具并不多,主要来自于3个平台:百度云、大姨妈、字节跳动最近我也在考虑写一篇本地文件采集的教程,没想到百度云这么好用,直接在线采集你想要的数据资源,傻瓜操作直接拖拖拽拽就搞定了,很爽。另外这次教程我用到的采集工具比较一般,不能提供一流的采集效果,多关注细节,把关注点放在运营上能提高成功率。大姨妈在采集数据前,我们先得确定一下采集工具:首先得让采集工具支持分批下载:然后得在单文件上进行预览操作:多采集文件/文件夹,采集文件形式:批量文件下载:文件下载后自动生成目录。
当时我这次试用的是电商数据。电商数据主要下载某宝、某猫商品的:内容主要是上架宝贝数量、重复商品的占比、商品一级类目排名,商品二级类目排名等等信息。我们不是很在意这些信息,或者对商品基本知识一窍不通,也不想提前构建这些数据。那么这个电商数据采集软件不支持跨文件夹批量爬取,仅支持单文件采集。当时我就是有太多数据,但是我不想分类整理起来太麻烦了,直接干掉电商数据。
我也尝试过用其他文件批量采集工具,结果各有各的坑,有的总体效果好,有的无法定时采集,有的是在线保存数据到excel,直接在线压缩储存,有的是在线保存数据到本地,但是文件不支持方向定位,我已经试过好几个这种类型的软件了,最后只能选择这个:直接拖拽加批量操作,甩其他工具一条街(如果自己没有试过,可以先试试):这里先放出结果:6个数据集包括服装、鞋子、工业产品、美容护肤、母婴等。
分析目录看到上图可以发现,主要目录是最后一页销量、在线商品数量、最热门的商品、评论量等最常用的数据,工具和电商数据类似,对这些数据进行字段提取后形成最终统计。字段提取主要涉及到4个方面字段提取并存储字段打散输入可以看到这些字段的信息都是重复的,避免重复很重要。我把字段打散放到excel上按个分析,很明显是需要提取这些字段数据建立相关联表建立相关联表就是把所有字段和它的分类特征表关联起来。
文本:把数据由电商数据转换成文本数据集工具最关键的环节,可能是重新配置打点器和完成文本采集,这里面电商数据结构和电商数据集是基本一致的,excel2013版本的打点器也好用。分类表:按分类把数据集按类别合并成一个表数值:按商品值提取数据:按商品的重复商品数对应数值提取数据拼接字段导入字段在开始爬取数据之前,我们需要将字段和对应的要点融合起来,做到统一输入。
下面是我的做法:我把这个页面全屏截图出来:有text、choiceclue、address、price、itemtitle、itemn。