excel抓取网页动态数据(文章目录Selenium安装SeleniumSelenium对象访问查找节点节点交互获取节点信息 )
优采云 发布时间: 2021-12-15 11:26excel抓取网页动态数据(文章目录Selenium安装SeleniumSelenium对象访问查找节点节点交互获取节点信息
)
如上所述,我们可以通过分析Ajax访问服务器的方式来获取Ajax数据。Ajax 也是一种动态渲染页面。因此,也可以抓取动态页面。
文章 目录 Selenium 安装 Selenium Selenium 基本用法 声明浏览器对象访问页面 查找节点 节点交互 获取节点信息 Selenium
Selenium 是一种用于 Web 应用程序测试的工具。Selenium 测试直接在浏览器中运行,就像真实用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11), Mozilla Firefox, Safari, Google Chrome, Opera等。本工具的主要功能包括: 测试与浏览器的兼容性-test 看看您的应用程序可以在不同的浏览器和操作系统上运行良好测试系统功能-创建回归测试以验证软件功能和用户需求支持自动记录动作和自动生成.Net、Java、Perl等多种语言的测试脚本。总之,Selenium 可以模拟用户对浏览器的操作,因此也可以提取动态页面。
安装硒
在cmd下输入:
pip 安装硒
同时下载相应版本浏览器的驱动。
Chrome:点击下载
火狐:点击下载
IE:点击下载
下载后解压到python安装目录下的scripts中。
Selenium 基本使用方法来声明浏览器对象
Selenium 支持很多浏览器,我们首先需要让系统知道你使用的是什么浏览器,我们可以通过以下方式对其进行初始化:
from selenium import webdriverbrowser = webdriver.Chrome()browser = webdriver.Firefox()browser = webdriver.Edge()browser = webdriver.PhantomJS()browser = webdriver.Sarari()
之后我们就可以使用浏览器对象来执行各种动作来模拟浏览器操作
访问页面
我们使用get()方法来请求一个网页,只需要传入URL即可。这里我们访问百度页面并打印出源代码:
from selenium import webdriverbrowser = webdriver.Chrome()browser.get('')print(browser.page_source)browser.close() 查找单个节点
网页由超文本标记语言组成。这些是网页的节点。如果我们想要获取某些信息,我们需要知道该信息位于何处。所以这里你要查看网页的源代码。