文章采集接口(99E5A588%的Web版搜索接口(图))
优采云 发布时间: 2021-11-14 10:16文章采集接口(99E5A588%的Web版搜索接口(图))
最新版本(2018 年 9 月)
小红书()是一个拥有超过1亿用户的生活方式分享社区。其用户笔记涵盖美食、服装、购物,以及时尚、护肤、彩妆、美食、旅游、影视、阅读、健身等各种生活方式领域。此外,社区每天会产生数十亿条笔记曝光。正如客户所说,其平台整合了社交和商务,其数据价值可想而知。
小红书的数据不难采集。通过网页版的搜索界面,结合相应的搜索词,可以搜索到感兴趣的笔记,进而采集笔记的详细数据。然而,好景并没有持续多久。随着小红书完成超过3亿美元的一轮融资,小红书的平台界面也发生了很大变化:网页版搜索界面直接关闭,小红书App应用成为主流。这样,之前通过网页版的搜索界面获取数据的方法就直接被屏蔽了。
由于网页版的界面已经没有了,只能看App的界面了。通过抓包工具,可以获得小红书App的搜索界面。
这里使用的搜索词是“香奈儿63”,对应的搜索界面网址如下:
% E9% A6% 99% E5% A5% 88% E5% 84% BF63 & 过滤器 = & 排序 = & 页面 = 1 & page_size = 20 & 源 = explore_feed & search_id = 927A522C26DC8FD699971F1B1C1F6838 & 平台 = 安卓设备 &6666f665 -3aab-aff8-a8fe7bc48809&device_fingerprint = 237dab00272f54a61a24dbf8e788810c0ac01ea060ac16b8048&device_fingerprint1 = 237dab00272f54a61a24dbf8e788810c0ac01ea060ac16b8048&的versionName = 5. 2 4. 1信道=搜狗&SID = session.78290029&LANG = ZH-汉斯&T = 1536298303&签名= dd2764c4258e12db80fbe5df11e01af0
可以看到,App界面中有很多参数。但是经过测试,发现这些参数是不能修改的,提交会失败。而且,这些参数(除了搜索词关键字)不能自己构造(注意sign参数,这是一种常用的针对采集的签名保护机制)。似乎这条路无路可走,追号的征程再次陷入僵局。
好在细心的鲲鹏技术人员发现除了App外,小红书还有一个微信小程序,于是对小红书微信小程序又展开了一轮分析研究。
再次抓包分析发现,小红书微信小程序的界面是可以修改参数的,但是三个参数好像有有效期。
测试发现,只要这三个参数有一定的有效期,就可以在这个有效期内更改关键字进行搜索,得到正确的数据。那么,我们首先如何获得这三个参数呢?鲲鹏技术人员通过研究发现,可以模拟微信小程序的运行,在手机上自动运行小红书小程序,同时利用程序自动抓包,提取最新的接口参数,供手机使用。爬虫使用(如下图所示)。
敢想敢做,鲲鹏技术人员积极探索,大胆尝试,克服重重困难,最终将想法变为现实。首先通过自动模拟运行程序在手机上运行小红书小程序,然后抓包提取最新的接口参数;然后使用获取的界面参数,结合搜索词进行搜索,采集与搜索结果相关的笔记数据;最后进入笔记详情页面,提取所有需要的相关数据。就是这样!
随附的:
通过小红书微信小程序界面抓取的搜索结果数据(部分字段)示例如下:
转载至