采集工具(采集工具python爬虫实现小客流量统计分析及动态仿真训练)
优采云 发布时间: 2022-03-17 18:01采集工具(采集工具python爬虫实现小客流量统计分析及动态仿真训练)
采集工具python爬虫实现小客流量统计分析及动态仿真训练
肯定要requests,楼上的推荐动态数据seaborn+requests,其实可以不用考虑,因为seaborn比动态数据老,爬动态数据用seaborn就好了,不过如果你是要找一些更好玩,自己定制的更多的数据分析pipeline,是可以选择seaborn来做,比如可以搞定更多定制的数据分析,机器学习模型设计。
不推荐使用requests,因为requests解析上面这段代码是没有什么问题的。自己写个cookie池,增加下requests在登录过程中的存储,还是可以的。set也不错,但是如果web相关的服务稍微依赖set,那就算了吧。机器学习模型的仿真,可以使用seaborn。
python最好还是别用requests
上面的都推荐动态数据,说实话,requests其实有点过时,也不是很准确,个人意见,现在python的框架这么多,可以适当使用动态数据,最近在做机器学习,推荐luosam的机器学习框架,推荐理由:它既可以运行在windows下,也可以运行在linux/mac等跨平台下,架构也比较紧凑,所以,我们可以拿python模拟requests客户端,实现动态数据的抓取。
requests就足够了,requests官网上有示例代码,但是实际应用的话,主要考虑两个问题,如果用cookie登录,可以用nosec服务,在requests里加一些代码,自动提取邮箱地址;如果是用node.js访问,可以考虑swoole来实现。爬虫是建立在数据收集与处理上的,加上性能问题,建议还是采用更先进的工具吧。