爬虫--淘宝登陆及生意参谋transit-id和data破解
优采云 发布时间: 2020-07-04 08:00生意参谋是天猫店家剖析市场行情最常见的工具之一.淘宝为了防爬虫堪称下了不少工夫.
本次为了写一款抓取生意参谋数据的爬虫,真是费了不少很大的劲才破解上面的数据加密.
首先爬虫肯定是自动化抓取,所以登陆自然是要手动登入,但是生意参谋的登陆跟网店的是一模一样的,当你用selenium打开登陆的时侯才会被天猫前端验证下来是个机器人。所以登陆的话可以采用编译后的chromedriver来驱动chrome,或者使用mitmproxy用中间人的形式拦截服务器发送来的js,修改js上面函数的测量selenium的特征值的方法来登入.
获得登陆后的cookie后,如果想发送恳求获得还必须在恳求头里添加一个transit-id才可以获得响应内容.
如下图:
不过这个笔者目前少量测试,写死一个也能获得响应内容.
如果在浏览器进行debug,会发觉这个值是每每后端恳求数据的时侯,对一个固定字符串做了RSA加密来得到的.所以可以在爬虫里写一个同样的方式获得transit-id.
原以为经过以上两步可以顺利获得结果了生意参谋禁止爬虫软件有哪些,事实证明还是太天真了.查看结果发觉的到的是这样的一堆数据:
原来生意参谋后台响应的数据由经过AES加密的,前端展示的是揭密后的.
所以,要想获得真正的数据生意参谋禁止爬虫软件有哪些,还须要对数据做AES揭秘才可以.
展示运行结果