浏览器抓取网页( 《python3爬虫开发实战》学习笔记(零)学习路线html)
优采云 发布时间: 2021-10-06 20:32浏览器抓取网页(
《python3爬虫开发实战》学习笔记(零)学习路线html)
browser = webdriver.Chrome()
2-访问页面
browser.get('https://www.taobao.com')
3- 查找节点
input_first = browser.find_element(By.ID, 'q') #单个节点
lis = browser.find_elements_by_css_selector('.service-bd li')
4-节点交互
...
5- 获取节点信息
网页的源代码可以通过 page_source 属性获取。获取源码后,可以使用regular、BeautifulSoup、PyQuery等解析库提取信息。
但是Selenium提供了选择节点的方法,返回WebElement类型,可以通过相关方法或属性解析
6- 获取属性
7- 切换框架
8- 延迟等待
确保节点已加载
- 隐式等待
当搜索一个节点并且该节点没有立即出现时,隐式等待会等待一段时间再搜索DOM。默认时间为 0。implicitly_wait()
-显式等待
指定要查找的节点,然后指定最长等待时间。如果在指定时间内加载节点,则返回搜索到的节点。如果在指定时间内仍未加载节点,则会抛出超时异常。
##本系列内容为《python3爬虫开发实战》学习笔记。本系列博客列表如下:css
(零)学习路线html
(一)开发环境配置python
(二) 爬虫基础网页
(三)基础库使用ajax
(四)使用浏览器分析库
(五)数据存储工具
(六)Ajax数据爬取学习
(七)动态渲染页面爬取Selenium测试
不断更新...ui
请看对应的代码:..