浏览器抓取网页( 《python3爬虫开发实战》学习笔记(零)学习路线html)

优采云 发布时间: 2021-10-06 20:32

  浏览器抓取网页(

《python3爬虫开发实战》学习笔记(零)学习路线html)

  browser = webdriver.Chrome()

  2-访问页面

  browser.get('https://www.taobao.com')

  3- 查找节点

  input_first = browser.find_element(By.ID, 'q') #单个节点

lis = browser.find_elements_by_css_selector('.service-bd li')

  4-节点交互

  ...

  5- 获取节点信息

  网页的源代码可以通过 page_source 属性获取。获取源码后,可以使用regular、BeautifulSoup、PyQuery等解析库提取信息。

  但是Selenium提供了选择节点的方法,返回WebElement类型,可以通过相关方法或属性解析

  6- 获取属性

  7- 切换框架

  8- 延迟等待

  确保节点已加载

  - 隐式等待

  当搜索一个节点并且该节点没有立即出现时,隐式等待会等待一段时间再搜索DOM。默认时间为 0。implicitly_wait()

  -显式等待

  指定要查找的节点,然后指定最长等待时间。如果在指定时间内加载节点,则返回搜索到的节点。如果在指定时间内仍未加载节点,则会抛出超时异常。

  ##本系列内容为《python3爬虫开发实战》学习笔记。本系列博客列表如下:css

  (零)学习路线html

  (一)开发环境配置python

  (二) 爬虫基础网页

  (三)基础库使用ajax

  (四)使用浏览器分析库

  (五)数据存储工具

  (六)Ajax数据爬取学习

  (七)动态渲染页面爬取Selenium测试

  不断更新...ui

  请看对应的代码:..

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线