采集Xiaohongshu数据采集器

优采云 发布时间: 2020-08-07 07:13

  最新版本(2018年9月)

  小红树(),一个拥有超过1亿用户的生活方式共享社区. 它的用户笔记涵盖饮食,服装,购物,时尚,皮肤护理,化妆,食品,旅行,电影和电视,阅读,健身和其他生活. 在方法领域,加上社区每天产生的数十亿笔记曝光正如客户所说,其平台将社交和商业集成在一起,其数据价值可想而知.

  小红书的数据最初并不难采集. 通过Web版本的搜索界面,结合相应的搜索词,可以搜索到感兴趣的注释,然后采集注释的详细数据. 但是,好时光并不长. 随着小红书完成一轮超过3亿美元的融资,小红书的平台界面也发生了巨大变化: Web版本的搜索界面直接关闭,小红书App的应用成为主流. 这样,直接阻止了以前通过Web版本的搜索界面获取数据的方法.

  由于Web版本的界面不可用,因此您只能查看App的界面. 通过数据包捕获工具,您可以获得小红书应用程序的搜索界面.

  

  此处使用的搜索词是“ Chanel 63”,相应的搜索界面URL如下:

  %E9%A6%99%E5%A5%88%E5%84%BF63和过滤器=&排序=&页面= 1&page_size 20&来源= Explore_feed&search_id = 927A522C26DC8FD699971F1B1C1F6838&平台= Android&deviceId = 560c6663 -a66f-3aab-aff8-a8fe7bc48809&device_fingerprint = 237dab00272f54a61a24dbf8e788810c0ac01ea060ac16b8048&device_fingerprint1 = 237dab00272f54a61a24dbf8e788810c0ac01ea060ac16b8048&=的versionName 5.24.1 =&信道搜狗=&SID = session.78290029&LANG = ZH-汉斯&T = 1536298303&符号= dd2764c4258e12db80fbe5df11e01af0

  如您所见,App界面中有许多参数. 但是,在测试之后,发现这些参数无法修改,并且提交将失败. 而且,这些参数(搜索词关键字除外)不能自行构造(请注意sign参数,这是反采集的常用签名保护机制). 看来这条路无处可寻,追赶数字的旅程再次陷入僵局.

  幸运的是,精打细算的坤鹏技术人员发现,除了该应用程序外,小红书还拥有一个微信小程序,因此他们对小红书微信小程序进行了另一轮分析和研究.

  再次进行数据包捕获分析,发现小红树微信小程序的界面可以修改参数,但是其中三个参数似乎具有有效期.

  

  该测试发现,只要这三个参数具有一定的有效期,您就可以更改关键字以在此有效期内搜索并获取正确的数据. 那么,如何第一次获得这三个参数呢?通过研究,昆鹏的技术人员发现可以模拟微信小程序的操作,以在手机上自动操作小红书小程序,同时使用该程序自动捕获数据包并提取最新的接口参数以供使用. 由采集器显示(如下图所示).

  

  敢于思考和做事,昆鹏的技术人员积极探索,大胆尝试,克服了许多困难,最终将他们的想法变为现实. 首先,通过自动模拟操作程序在手机上操作小红树小程序,然后捕获数据包以提取最新的接口参数;然后使用获取到的界面参数,结合搜索词进行搜索,并采集与搜索结果数据相关的注释;最后进入注释详细信息页面并提取所有需要的相关数据. 就是这样!

  附加:

  通过小红书微信小程序界面捕获的搜索结果数据(部分字段)的示例如下:

  

  转载至

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线