python网页数据抓取(博客pythonselenium循环选择python3seleniumActionChains用法及Alert对话框处理)

优采云发布时间: 2021-12-12 18:25

　　项目介绍

　　这个项目是为一些复杂的报表解析和爬取列表数据。以国网为例（最好改成网站），它会根据数据库自动配置文本（数据库是字典），继续

　　点击树状结构，然后在下拉框中输入时间，选择省（时间和省由配置文件配置），但是下拉列表的xpath没有数据库化，在这个阶段的代码中是硬编码的。

　　项目开始通过递归判断是否是最后一层。字典表可以配置N个级别，这取决于你的网站复杂度

　　加入QQ群：943841699

　　源码地址：复生若梦/table_creeper

　　技术

　　Python3.6

　　selenium（如果你不了解selenium，可以参考博客

　　python selenium 选择器循环选择

　　python3 selenium ActionChains 使用

　　python3 selenium Select用法和Alert对话框处理

　　)

　　本项目使用谷歌浏览器内核，需要安装谷歌及配套驱动

　　参考：selenium打开chrome时出错-五道十魂的博客-CSDN博客

　　而且linux没有接口，需要配置无接口方式爬取

　　参考：linux selenium chrome chromedriver及无浏览器界面的运行方式

　　使用说明

　　1.复制资源文件下的SQL并导入数据库

　　2. 配置 config.py

　　3.根据技术目录指南完成安装

　　4.现阶段只有一张表，class_type为类型，如果类型不同网站，class_type不同，

　　group_code为分组码，按照00000000，每一位代表不同的含义，对应自己库中的分类。

0

2021-12-12

python网页数据抓取

0 个评论

要回复文章请先登录或注册