python网页数据抓取(博客pythonselenium循环选择python3seleniumActionChains用法及Alert对话框处理)
优采云 发布时间: 2021-12-12 18:25python网页数据抓取(博客pythonselenium循环选择python3seleniumActionChains用法及Alert对话框处理)
项目介绍
这个项目是为一些复杂的报表解析和爬取列表数据。以国网为例(最好改成网站),它会根据数据库自动配置文本(数据库是字典),继续
点击树状结构,然后在下拉框中输入时间,选择省(时间和省由配置文件配置),但是下拉列表的xpath没有数据库化,在这个阶段的代码中是硬编码的。
项目开始通过递归判断是否是最后一层。字典表可以配置N个级别,这取决于你的网站复杂度
加入QQ群:943841699
源码地址:复生若梦/table_creeper
技术
Python3.6
selenium(如果你不了解selenium,可以参考博客
python selenium 选择器循环选择
python3 selenium ActionChains 使用
python3 selenium Select用法和Alert对话框处理
)
本项目使用谷歌浏览器内核,需要安装谷歌及配套驱动
参考:selenium打开chrome时出错-五道十魂的博客-CSDN博客
而且linux没有接口,需要配置无接口方式爬取
参考:linux selenium chrome chromedriver及无浏览器界面的运行方式
使用说明
1.复制资源文件下的SQL并导入数据库
2. 配置 config.py
3.根据技术目录指南完成安装
4.现阶段只有一张表,class_type为类型,如果类型不同网站,class_type不同,
group_code为分组码,按照00000000,每一位代表不同的含义,对应自己库中的分类。