js 抓取网页内容(介绍PhantomJSPhantomJS下载地址.exe下载)
优采云 发布时间: 2021-12-01 14:22js 抓取网页内容(介绍PhantomJSPhantomJS下载地址.exe下载)
介绍 PhantomJS
PhantomJS 下载链接
PhantomJS 是一个服务器端 JavaScript API WebKit(开源浏览器引擎)。它支持各种 Web 标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可用于页面自动化、网络监控、网页截图和无界面测试。
使用 PhantomJS 而不是 Chromedriver 和 firefox,主要是因为 PhantomJS 的静音模式(在后台运行,无需打开浏览器)。
硒
Selenium 是一种用于 Web 应用程序测试的工具。 Selenium 测试直接在浏览器中运行,就像真正的用户在操作一样。支持的浏览器包括IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。该工具的主要功能包括:测试浏览器兼容性,测试系统功能,以及由 ThoughtWorks 专门为 Web 应用程序编写的验收测试工具。
我们在爬取的时候选择它,主要是因为Selenium可以渲染页面,在页面中运行JS,点击按钮,提交表单等操作。但是仅仅因为Selenium会渲染页面,会比requests+BeautifulSoup慢。
使用pip安装selenium
测试一下
# coding = utf-8
from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get("http://www.baidu.com")
browser.find_element_by_id("kw").send_keys("python")
browser.find_element_by_id("su").click()
browser.quit()
因为我在环境变量中添加了python,所以直接把phantomjs.exe放到了Scripts文件夹下。可以通过以下方式启动phantomjs.exe
提示:参考资料:
Selenium+PhantomJS+Xpath 抓取网页 JS 内容
Selenium + python 自动化测试环境搭建
简单的自动化——selenium-webdriver(python) (一)