c 抓取网页数据(python爬取js执行后输出的信息-苏州安嘉)
优采云 发布时间: 2022-03-29 12:12c 抓取网页数据(python爬取js执行后输出的信息-苏州安嘉)
Python 有很多库可以让我们轻松编写网络爬虫,爬取特定页面,获取有价值的信息!但很多情况下,爬虫获取到的页面只是静态页面,也就是网页的源代码,就像在浏览器上“查看网页源代码”一样。一些动态的东西,比如执行javascript脚本产生的信息,是无法捕获的。这里有一些解决方案可以用于python爬取js执行后输出的信息。
1、两个基本解决方案
1.1 使用dryscrape库动态抓取页面
js脚本由浏览器执行并返回信息。因此,在js执行后捕获页面最直接的方法之一就是使用python来模拟浏览器的行为。WebKit是一个开源的浏览器引擎,python提供了很多库来调用这个引擎,dryscrape就是其中之一,它调用webkit引擎来处理收录js的网页等等!
*敏*感*词*干刮
#使用dryscrape库动态抓取页面
defget_url_dynamic(url):
session_req=dryscrape.Session()
session_req.visit(url)#请求页面
response=session_req.body()#网页的文本
#打印(响应)
返回响应
get_text_line(get_url_dynamic(url))# 会输出一个文本
这也适用于其他收录js的网页!虽然可以满足爬取动态页面的要求,但是缺点还是很明显:慢!它太慢了。其实想想也是有道理的。Python调用webkit请求页面,页面加载完毕后,加载js文件,让js执行,返回执行的页面。应该慢一点!另外,可以调用webkit的库还有很多:PythonWebkit、PyWebKitGit、Pygt(可以用它写浏览器)、pyjamas等,听说也可以实现同样的功能!
1.2 selenium web 测试框架
Selenium是一个web测试框架,允许调用本地浏览器引擎发送网页请求,因此也可以实现爬取页面的需求。
# 使用 selenium webdriver 有效,但会实时打开浏览器窗口
defget_url_dynamic2(url):
driver=webdriver.Firefox()#调用本地Firefox浏览器,Chrom甚至Ie也可以
driver.get(url)#请求页面会打开浏览器窗口
html_text=driver.page_source
driver.quit()
#printhtml_text
返回html_text
get_text_line(get_url_dynamic2(url))# 会输出一个文本
这也是一个临时解决方案!类似selenium的框架也有风车,感觉稍微复杂一点,就不细说了!
2、selenium的安装和使用
2.1 selenium 的安装
要在 Ubuntu 上安装,您可以直接使用 pip install selenium。出于以下原因:
1. selenium 3.x 启动,在 webdriver/firefox/webdriver.py 的 __init__ 中,executable_path="geckodriver"; 并且 2.x 是 executable_path="wires"
2.firefox 47及以上版本需要下载第三方驱动,即geckodriver
还需要一些特殊操作:
1. 下载geckodriverckod地址:
Mozilla/geckodriver
2. 解压后将geckodriverckod存放在/usr/local/bin/路径下:
sudomv~/Downloads/geckodriver/usr/local/bin/
2.2 硒的使用
1. 运行错误:
驱动程序=webdriver.chrome()
TypeError:“模块”对象不可调用
解决方法:浏览器名称需要大写Chrome和Firefox,即
2. 由
content=driver.find_element_by_class_name('content')
定位元素时,此方法返回 FirefoxWebElement。当你想获取收录的值时,你可以通过
值=内容.文本
这是文章关于python如何爬取动态网站的介绍。更多关于python如何爬取动态网站的信息,请搜索我们之前的文章或者继续浏览下面的相关文章希望大家以后多多支持!