js 抓取网页内容(介绍PhantomJSPhantomJS下载地址.exe下载)

优采云 发布时间: 2021-12-01 14:22

  js 抓取网页内容(介绍PhantomJSPhantomJS下载地址.exe下载)

  介绍 PhantomJS

  PhantomJS 下载链接

  PhantomJS 是一个服务器端 JavaScript API WebKit(开源浏览器引擎)。它支持各种 Web 标准:DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可用于页面自动化、网络监控、网页截图和无界面测试。

  使用 PhantomJS 而不是 Chromedriver 和 firefox,主要是因为 PhantomJS 的静音模式(在后台运行,无需打开浏览器)。

  硒

  Selenium 是一种用于 Web 应用程序测试的工具。 Selenium 测试直接在浏览器中运行,就像真正的用户在操作一样。支持的浏览器包括IE(7、8、9)、Mozilla Firefox、Mozilla Suite等。该工具的主要功能包括:测试浏览器兼容性,测试系统功能,以及由 ThoughtWorks 专门为 Web 应用程序编写的验收测试工具。

  我们在爬取的时候选择它,主要是因为Selenium可以渲染页面,在页面中运行JS,点击按钮,提交表单等操作。但是仅仅因为Selenium会渲染页面,会比requests+BeautifulSoup慢。

  使用pip安装selenium

  

  测试一下

  # coding = utf-8

from selenium import webdriver

browser = webdriver.PhantomJS()

browser.get("http://www.baidu.com")

browser.find_element_by_id("kw").send_keys("python")

browser.find_element_by_id("su").click()

browser.quit()

  

  因为我在环境变量中添加了python,所以直接把phantomjs.exe放到了Scripts文件夹下。可以通过以下方式启动phantomjs.exe

  

  提示:参考资料:

  Selenium+PhantomJS+Xpath 抓取网页 JS 内容

  Selenium + python 自动化测试环境搭建

  简单的自动化——selenium-webdriver(python) (一)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线