python网页数据抓取(博客pythonselenium循环选择python3seleniumActionChains用法及Alert对话框处理)

优采云 发布时间: 2021-12-12 18:25

  python网页数据抓取(博客pythonselenium循环选择python3seleniumActionChains用法及Alert对话框处理)

  项目介绍

  这个项目是为一些复杂的报表解析和爬取列表数据。以国网为例(最好改成网站),它会根据数据库自动配置文本(数据库是字典),继续

  点击树状结构,然后在下拉框中输入时间,选择省(时间和省由配置文件配置),但是下拉列表的xpath没有数据库化,在这个阶段的代码中是硬编码的。

  项目开始通过递归判断是否是最后一层。字典表可以配置N个级别,这取决于你的网站复杂度

  加入QQ群:943841699

  源码地址:复生若梦/table_creeper

  技术

  Python3.6

  selenium(如果你不了解selenium,可以参考博客

  python selenium 选择器循环选择

  python3 selenium ActionChains 使用

  python3 selenium Select用法和Alert对话框处理

  )

  本项目使用谷歌浏览器内核,需要安装谷歌及配套驱动

  参考:selenium打开chrome时出错-五道十魂的博客-CSDN博客

  而且linux没有接口,需要配置无接口方式爬取

  参考:linux selenium chrome chromedriver及无浏览器界面的运行方式

  使用说明

  1.复制资源文件下的SQL并导入数据库

  2. 配置 config.py

  3.根据技术目录指南完成安装

  4.现阶段只有一张表,class_type为类型,如果类型不同网站,class_type不同,

  group_code为分组码,按照00000000,每一位代表不同的含义,对应自己库中的分类。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线