excel抓取网页动态数据sql+excelsql和mysql+django
优采云 发布时间: 2022-06-25 10:03excel抓取网页动态数据sql+excelsql和mysql+django
excel抓取网页动态数据sql+excel
sql和mysql+django是比较推荐的,分工比较明确。如果喜欢快速的话,就用flask,类似于python的web框架。这个框架已经有上百个为其提供模板服务的开源项目,有很多可参考的代码和模板,一搜即可。如果还喜欢继续提升的话,则建议学习python中的numpy和pandas库,一个可用于矩阵运算,一个可用于文件读写。
这些基础的数据处理和操作软件包都开源了,几乎可以去谷歌一下。学到这里,应该能完成一个基本的html页面的抓取,不过可以看下github上有无数这类项目。可以搜一下,就能看到很多优秀的开源项目。这些模板,一般就是这样出来的。还可以利用sqlplus,轻松做一个爬虫或者模拟浏览器登录等。抓取后,再用requests,beautifulsoup等库进行处理。
要注意的是,千万不要用任何非自定义的标记库来提取数据,否则出错率很高,可能你的数据库连接都建立好了,但程序出错崩溃了。关于字典和字典排序的事情,想太多,有时间有心,多看几遍《代码大全》,你就知道字典和字典排序有多简单。若你对requests不感兴趣,看看这个zzweaver:ondjango,flask,tornadoandrequests|keithcutler。
建议先抓取到你要的网页,本地做一个模拟浏览器的网页抓取项目,就可以理解,
1、理解pythondjango,
2、学会爬虫,
3、理解sql,前端与后端的处理,原理;要想看看,学习其他语言的,也是一样的。文字的基础知识操作;总之,现在python最流行,python入门比其他语言容易上手;其次,python机器学习、numpy、pandas、sql,但如果想研究更深入些,可以学习pytorch,githubpages上有很多pytorch模型;欢迎交流~。