爬虫技术可以抓取到网店淘宝易迅订单页的数据吗？

优采云发布时间: 2020-05-24 08:01

　　c家家，3d 引擎人工智能

　　60 人赞成了该回答

　　有关这个问题。前一阵开发过。

　　～～～2015，7，21补充代码地址。

　　应评论里几个知乎网友要求。我把代码放github了。先说一下。这些代码是自己思索和参考了nodejs以及网上好多资料的。也谢谢她们。此外代码还仍然没时间建立完毕。需要用的人还须要自己努力去建立能够使用。

　　地址：github.com/reichtiger/grampusSpider

　　---------------------------补充开始

　　用v8解析的核心就是误导网页js和框架。让它以为调用的对象就是浏览器对象。你构造的对象的属性和方式跟实际浏览器一样即可。这样用处是避免了图片和*敏*感*词*等的下载渲染布局等操作。节省cpu时间。谷歌的爬虫听说基于c++做的。而python有pyv8的库叫哪些忘了。原理类同，只是效率低一些罢了。具体我没用过，可以咨询参考用过的大侠。谢谢

　　---------------------------补充结束

　　普通的爬虫都是针对http的合同做的。但淘宝京东大量的ajax操作。因此须要带js引擎的爬虫能够应对。浏览器webkit可以。但自带了渲染。cpu消耗很高。并且多进程多线程时侯复杂。

　　因此我用v8来实现ajax网页的抓取。基本原理是自己来实现ajax和html对象。提供给网页代码一个模拟的浏览器环境。context。这样可以运行成功。但对所有html对象的支持是比较麻烦的。有些对象须要保持。有的反弹如settimeout。

　　但用处是可以后台运行。解析自定义js脚本。去抓取内容。目前普通网页ajax都没问题了。但天猫用的自己的js框架。京东是jquery。还有一些某些函数无法支持。

　　继续努力中。原则上是都能抓到的。

　　编辑于 2015-07-21

　　24 人赞成了该回答

　　前提肯定是你在浏览器里有权限看见那些数据。

　　看你的意思是作为商户端要自己的销售数据，那就真的别麻烦写爬虫了，淘宝现有的API完全能满足你的要求，去淘宝开放平台看API文档。如果你的商户规模不大网络爬虫淘宝商户，还不到天猫对自有系统接入的要求，那就去应用商城买第三方服务把，授权后才能在三方服务里看见自己数据。

　　如果你的意思是天猫卖家的历史订单数据，那就稍有不同。

　　原来天猫是有卖家API的，但这个API早已不在可用了，所以这个就必须用爬虫实现。方法从思路上来说分两种，一种就是楼上的水滴涟漪终消退提到的，用webkit容器，无论是用v8，phantomjs等等，都是这个路子网络爬虫淘宝商户，说穿了就是一个可以用程序交互小小浏览器环境

　　还有一种就稍稍巧妙一点，淘宝的话，你可以研究一下他的ajax访问机制，他是有一个特定ajax插口用于获取订单信息的，只是这个插口的调用有安全验证，验证内容是你当前登入后的cookie和一个十分复杂的js库算下来的一串验证码。自己本地实现这个js的算法基本不可能，比较取巧的做法就是，webkit容器访问一次网店，得到访问这个订单ajax插口所需的安全认证信息，然后就可以抛掉webkit容易，用最普通的http请求任意访问自己的订单信息了，只要浏览器上能看到的，全都能访问到，甚至还有些浏览器上没显示的信息，哈哈

　　至于易迅，同时做过易迅和天猫爬虫的人应当都晓得，京东的反爬机制和安全机制，和天猫比上去，那查的不是一星半点，如果你能搞定网店，京东完全不在话下。

　　顺带说一句，包括商品信息，订单信息，评论信息在内的电商平台爬虫，其实现难度由高究竟是：

　　淘宝C店 > 天猫商城 > 京东商城

　　对，你没看错，淘宝和淘宝是不同的，而且天猫比淘宝难搞多了，试试就晓得，找对方法后，天猫基本可以随意虐，但天猫却能分分钟教会你重新做程序员

　　发布于 2016-01-24

0

2020-05-24

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫技术可以抓取到网店淘宝易迅订单页的数据吗？

0 个评论

发起人