总结:自动采集编写sql语句不易，分析数据也要慎重

优采云发布时间: 2022-11-26 02:22

　　自动采集编写sql语句不易，分析数据时也要慎重。你可以考虑采用selenium+webdriver框架来采集数据。比如scrapy或phantomjs。对于爬虫，我们经常希望爬取的数据能够长久有效，那么技术上来说，还是要坚持采用requests。对于你的场景，推荐使用爬虫框架去完成抓取，再用requests实现数据存储。比如bs4，py2exe，采用一下简单的框架能够大大提高你的工作效率，不一定非要用requests。

" />

　　可以看看fiddler反编译工具。不过fiddler对爬虫支持的比较少，对多线程支持也不够友好，而且他不只支持爬虫，还有其他方面支持。所以你用来做多线程爬虫也比较麻烦。推荐使用python自带的反编译工具fiddler+phantomjs。fiddler可以抓取正常手机端网页的js，json，可以用phantomjs抓取js。

　　或者你自己做个爬虫，然后使用fiddler反编译。而且有个好处是如果手机浏览器可以读取requests数据的话，直接抓取很方便，比如抓取淘宝、美团、百度等网站的浏览器dom。这些网站甚至会给你返回一个response对象，你就可以直接写入数据库。这对于常年在网上爬数据的爬虫而言非常方便。

" />

　　爬虫和requests库相当好用，顺便推荐python的相关开发者社区（pandas，numpy,matplotlib...）对于python开发爬虫，最为突出的问题就是想要实现什么功能就使用什么库，而且有的库你还不想用：比如es库或re库，其实主要问题不是python的库，而是python项目经常忽略python本身的部分功能，把自己的东西，特别是面向对象，多线程相关的烂活给扔给开发者做，有的时候这些烂活对于爬虫开发来说就是个坑，所以你不妨根据自己的需求规划，不用依赖所有库，实在不行，有一两个实用的库即可。

　　最好选择那些开发者多而且兼容性好的库（当然你要用得着也可以re库目前也兼容python版本中2.6,2.7版本）比如faker和requests比如elk比如scrapy比如docker再比如fastdebug，karma等。

0

2022-11-26

自动采集编写

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

总结:自动采集编写sql语句不易，分析数据也要慎重

0 个评论

发起人

AI时代内容工厂

总结:自动采集编写sql语句不易，分析数据也要慎重

0 个评论

发起人

相关问题