总结:自动采集编写sql语句不易,分析数据也要慎重

优采云 发布时间: 2022-11-26 02:22

  总结:自动采集编写sql语句不易,分析数据也要慎重

  自动采集编写sql语句不易,分析数据时也要慎重。你可以考虑采用selenium+webdriver框架来采集数据。比如scrapy或phantomjs。对于爬虫,我们经常希望爬取的数据能够长久有效,那么技术上来说,还是要坚持采用requests。对于你的场景,推荐使用爬虫框架去完成抓取,再用requests实现数据存储。比如bs4,py2exe,采用一下简单的框架能够大大提高你的工作效率,不一定非要用requests。

  

" />

  可以看看fiddler反编译工具。不过fiddler对爬虫支持的比较少,对多线程支持也不够友好,而且他不只支持爬虫,还有其他方面支持。所以你用来做多线程爬虫也比较麻烦。推荐使用python自带的反编译工具fiddler+phantomjs。fiddler可以抓取正常手机端网页的js,json,可以用phantomjs抓取js。

  或者你自己做个爬虫,然后使用fiddler反编译。而且有个好处是如果手机浏览器可以读取requests数据的话,直接抓取很方便,比如抓取淘宝、美团、百度等网站的浏览器dom。这些网站甚至会给你返回一个response对象,你就可以直接写入数据库。这对于常年在网上爬数据的爬虫而言非常方便。

  

" />

  爬虫和requests库相当好用,顺便推荐python的相关开发者社区(pandas,numpy,matplotlib...)对于python开发爬虫,最为突出的问题就是想要实现什么功能就使用什么库,而且有的库你还不想用:比如es库或re库,其实主要问题不是python的库,而是python项目经常忽略python本身的部分功能,把自己的东西,特别是面向对象,多线程相关的烂活给扔给开发者做,有的时候这些烂活对于爬虫开发来说就是个坑,所以你不妨根据自己的需求规划,不用依赖所有库,实在不行,有一两个实用的库即可。

  最好选择那些开发者多而且兼容性好的库(当然你要用得着也可以re库目前也兼容python版本中2.6,2.7版本)比如faker和requests比如elk比如scrapy比如docker再比如fastdebug,karma等。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线