爬虫技术可以抓取到网店淘宝易迅订单页的数据吗?

优采云 发布时间: 2020-05-24 08:01

  

  c家家,3d 引擎人工智能

  60 人赞成了该回答

  有关这个问题。前一阵开发过。

  ~~~2015,7,21补充代码地址。

  应评论里几个知乎网友要求。我把代码放github了。先说一下。这些代码是自己思索和参考了nodejs以及网上好多资料的。也谢谢她们。此外代码还仍然没时间建立完毕。需要用的人还须要自己努力去建立能够使用。

  地址:github.com/reichtiger/grampusSpider

  ---------------------------补充开始

  用v8解析的核心就是误导网页js和框架。让它以为调用的对象就是浏览器对象。你构造的对象的属性和方式跟实际浏览器一样即可。这样用处是避免了图片和*敏*感*词*等的下载渲染布局等操作。节省cpu时间。谷歌的爬虫听说基于c++做的。而python有pyv8的库叫哪些忘了。原理类同,只是效率低一些罢了。具体我没用过,可以咨询参考用过的大侠。谢谢

  ---------------------------补充结束

  普通的爬虫都是针对http的合同做的。但淘宝京东大量的ajax操作。因此须要带js引擎的爬虫能够应对。浏览器webkit可以。但自带了渲染。cpu消耗很高。并且多进程多线程时侯复杂。

  因此我用v8来实现ajax网页的抓取。基本原理是自己来实现ajax和html对象。提供给网页代码一个模拟的浏览器环境。context。这样可以运行成功。但对所有html对象的支持是比较麻烦的。有些对象须要保持。有的反弹如settimeout。

  但用处是可以后台运行。解析自定义js脚本。去抓取内容。目前普通网页ajax都没问题了。但天猫用的自己的js框架。京东是jquery。还有一些某些函数无法支持。

  继续努力中。原则上是都能抓到的。

  编辑于 2015-07-21

  

  24 人赞成了该回答

  前提肯定是你在浏览器里有权限看见那些数据。

  看你的意思是作为商户端要自己的销售数据,那就真的别麻烦写爬虫了,淘宝现有的API完全能满足你的要求,去淘宝开放平台看API文档。如果你的商户规模不大网络爬虫 淘宝商户,还不到天猫对自有系统接入的要求,那就去应用商城买第三方服务把,授权后才能在三方服务里看见自己数据。

  如果你的意思是天猫卖家的历史订单数据,那就稍有不同。

  原来天猫是有卖家API的,但这个API早已不在可用了,所以这个就必须用爬虫实现。方法从思路上来说分两种,一种就是楼上的 水滴涟漪终消退 提到的,用webkit容器,无论是用v8,phantomjs等等,都是这个路子网络爬虫 淘宝商户,说穿了就是一个可以用程序交互小小浏览器环境

  还有一种就稍稍巧妙一点,淘宝的话,你可以研究一下他的ajax访问机制,他是有一个特定ajax插口用于获取订单信息的,只是这个插口的调用有安全验证,验证内容是你当前登入后的cookie和一个十分复杂的js库算下来的一串验证码。自己本地实现这个js的算法基本不可能,比较取巧的做法就是,webkit容器访问一次网店,得到访问这个订单ajax插口所需的安全认证信息,然后就可以抛掉webkit容易,用最普通的http请求任意访问自己的订单信息了,只要浏览器上能看到的,全都能访问到,甚至还有些浏览器上没显示的信息,哈哈

  至于易迅,同时做过易迅和天猫爬虫的人应当都晓得,京东的反爬机制和安全机制,和天猫比上去,那查的不是一星半点,如果你能搞定网店,京东完全不在话下。

  顺带说一句,包括商品信息,订单信息,评论信息在内的电商平台爬虫,其实现难度由高究竟是:

  淘宝C店 > 天猫商城 > 京东商城

  对,你没看错,淘宝和淘宝是不同的,而且天猫比淘宝难搞多了,试试就晓得,找对方法后,天猫基本可以随意虐,但天猫却能分分钟教会你重新做程序员

  发布于 2016-01-24

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线