浏览器抓取网页( 《python3爬虫开发实战》学习笔记(零)学习路线html)

优采云发布时间: 2021-10-06 20:32

　　浏览器抓取网页(

《python3爬虫开发实战》学习笔记(零)学习路线html)

　　browser = webdriver.Chrome()

　　2-访问页面

　　browser.get('https://www.taobao.com')

　　3- 查找节点

　　input_first = browser.find_element(By.ID, 'q') #单个节点

lis = browser.find_elements_by_css_selector('.service-bd li')

　　4-节点交互

　　...

　　5- 获取节点信息

　　网页的源代码可以通过 page_source 属性获取。获取源码后，可以使用regular、BeautifulSoup、PyQuery等解析库提取信息。

　　但是Selenium提供了选择节点的方法，返回WebElement类型，可以通过相关方法或属性解析

　　6- 获取属性

　　7- 切换框架

　　8- 延迟等待

　　确保节点已加载

　　- 隐式等待

　　当搜索一个节点并且该节点没有立即出现时，隐式等待会等待一段时间再搜索DOM。默认时间为 0。implicitly_wait()

　　-显式等待

　　指定要查找的节点，然后指定最长等待时间。如果在指定时间内加载节点，则返回搜索到的节点。如果在指定时间内仍未加载节点，则会抛出超时异常。

　　##本系列内容为《python3爬虫开发实战》学习笔记。本系列博客列表如下：css

　　（零）学习路线html

　　(一）开发环境配置python

　　(二）爬虫基础网页

　　(三）基础库使用ajax

　　(四）使用浏览器分析库

　　(五）数据存储工具

　　(六）Ajax数据爬取学习

　　(七）动态渲染页面爬取Selenium测试

　　不断更新...ui

　　请看对应的代码：..

0

2021-10-06

浏览器抓取网页

0 个评论

要回复文章请先登录或注册