一键采集上传常见的细节问题(如何批量抓取Tophatter平台的产品数据,第一次上大部分怎么做?)
优采云 发布时间: 2021-11-09 01:00一键采集上传常见的细节问题(如何批量抓取Tophatter平台的产品数据,第一次上大部分怎么做?)
上次讲了如何批量抓取Tophatter平台的产品数据。第一次接触这个例程的读者可能不太了解抓包的实现过程。它有助于。掌握批量采集的技巧,我们可以获得很多有价值的数据,比如抓取买家最热门的产品,产品的平均售价,产品的评价状态。结合这些详细信息,深入挖掘,开发目标产品。当然,大多数中国卖家在Tophatter上都能在1688上找到他们的大部分产品。您也可以将平台上的产品快速转移到其他平台。早年的暴力店就是这么来的。
这一次,我们将抢夺Lazada平台上的产品。如果你是跨境电商行业的老卖家,你或多或少都知道一些平台对于SKU数量的要求的套路。应该说,在大多数平台上,开新店的时候,客户经理至少会要求列出多少SKU,越多越好,越多越好。很多新卖家都在纠结这300-500个SKU,因为原来的方式是手动编辑上传吐血待编辑。所以,我们还是得动脑筋,想办法,找捷径。Lazada 就是这样,甚至还多次举办产品上传大赛。当然,SKU的数量越多,卖家的订单数量也不一定越多,但它可能会让 Lazada 看起来很大,可以卖个好价钱。因此,我认为 Lazada 以 20 亿美元的价格卖给了阿里巴巴,也许你有我的功劳。废话少说,开始采集。
一、分析
考虑直接采集某卖家的店铺SKU做示范,会被骂死。这次是来自分类采集。打开网站,在Categories中找到一个分类,以Women Bags为例进行演示。进入
第一步是分析列表页的规则,找到列表页和内容页的关联。因为最终目标是采集产品内容页上的数据,而我们无法直接获取到内容页访问地址,所以列表页的作用就是找到内容页访问地址。
像往常一样,打开Chrome浏览器,按F12,观察XHR栏的变化。我们点击列表页面底部的页码,每次点击页码,都会在XHR上看到一个json数据包链接。
按照之前的方法,在浏览器中打开json数据包链接,一堆乱码,同样的方法,把这些数据粘贴进去格式化,找到规则。我们尝试提出一个内容页面链接地址并批量搜索,发现多达235条记录,但仔细计算,下一页列表中只有40个产品。显然这不是我们需要的。这样查找对应的内容页的链接地址好像比较麻烦。让我们换个方式。
直接打开这个页面的源代码,点击鼠标右键,查看页面的源代码,继续找链接。找到一个内容页链接地址,复制到搜索中,可以看到下图。
好像有点眉目。我们继续缩小范围,终于找到这段代码:
productUrl":"//.my/products/bagsociety-mg-saffiano-effect-shell-bag-tote-bag-crossbody-sling-bag-black-i135436360-s153414723.html?search=1
二、采集
我们测试是否满足要求,打开优采云采集器。创建一个新任务并将其命名为 lazada。在地址格式栏填写列表页地址,page=后面的数字是一个变量,这里用address参数代替,因为这个类别有102页,如果要全部采集,写10 2.
在手动设置规则获取栏填写:
网址":"//.my/products/bagsociety-mg-saffiano-effect-shell-bag-tote-bag-crossbody-sling-bag-black-i135436360-s153414723.html?search=1
中间的链接地址是一个变量,用[参数]代替。
获取网址":"[参数]?search=1
拼接地址得到【参数1】
我们测试了能否成功获取到内容页地址,结果如下图所示。每页 40 个链接正是我们所需要的。
接下来就可以开始采集产品内容页面的内容了。这里还是以采集产品标题为例,其他字段数据依此类推。复制商品标题的文字内容,在源码中搜索,得到下图找到规则。
在content采集规则中,新建一个字段,我们使用before和after截取方法获取标题文本。绿色 (*) 是通配符,可以替换任何文本。
测试成功。最后,启动批处理采集。
找到桌面上的数据文件,打开,所有的数据都已经保存在里面了。
至此,Lazada平台的产品批量采集任务已经完成,参考这个demo,还可以完成尺寸、重量、图片、描述、亮点等信息采集下来。我觉得这样很容易处理平台对SKU数量的要求。
再次强调,批量采集不是黑科技,准确的说是从事跨境电商的基本功。数据是基础,分析处理是方法。采集 很多数据给你,可能是一副垃圾,但如果结合分析处理,巧妙筛选提取有价值的内容,可能是热门产品,也可能是需求对于产品改进分析,值得一试。[box style=”info”]在线观看本文内容及视频讲解:(立即订阅-学习晨航博客,分享跨境电商心得)
[/盒子]