动态网页抓取(python爬取js执行后输出的信息--本篇内容)

优采云发布时间: 2021-10-25 22:19

　　在本期内容中，小编与大家分享了python如何抓取动态网站的相关知识点，有兴趣的朋友可以参考一下。

　　Python有很多库，可以让我们轻松编写网络爬虫，爬取某些页面，获取有价值的信息！但很多情况下，爬虫抓取的页面只是一个静态页面，即网页的源代码，就像在浏览器上“查看网页的源代码”一样。一些动态的东西，比如javascript脚本执行后产生的信息，是无法捕捉到的。这里有一些解决方案，可以用于python抓取js执行后输出的信息。

　　1、两种基本解决方案

　　1.1 使用dryscrape库动态抓取页面

　　js脚本通过浏览器执行并返回信息，因此，js执行后抓取页面最直接的方式之一就是用python模拟浏览器的行为。WebKit 是一个开源浏览器引擎。Python 提供了许多库来调用这个引擎。干刮就是其中之一。它调用webkit引擎来处理收录js等的网页！

　　 import dryscrape # 使用dryscrape库动态抓取页面 def get_url_dynamic(url): session_req=dryscrape.Session() session_req.visit(url) #请求页面 response=session_req.body() #网页的文本 #print(response) return response get_text_line(get_url_dynamic(url)) #将输出一条文本

　　这也适用于其他收录js的网页！虽然可以满足抓取动态页面的要求，但是缺点还是很明显：慢！太慢了。其实想想也是有道理的。Python调用webkit请求页面，页面加载完成后，加载js文件，让js执行，返回执行的页面。应该会更慢！另外，可以调用webkit的库还有很多：PythonWebkit、PyWebKitGit、Pygt（你可以用它来写浏览器）、pyjamas等，听说它们也可以实现同样的功能！

　　1.2 selenium web 测试框架

　　Selenium 是一个网页测试框架，它允许调用本地浏览器引擎发送网页请求，因此也可以实现抓取网页的要求。

　　# 使用selenium webdriver是可行的，但是会实时打开浏览器窗口

　　 def get_url_dynamic2(url): driver=webdriver.Firefox() #调用本地的火狐浏览器，Chrom 甚至 Ie 也可以的 driver.get(url) #请求页面，会打开一个浏览器窗口 html_text=driver.page_source driver.quit() #print html_text return html_text get_text_line(get_url_dynamic2(url)) #将输出一条文本

　　这也是临时解决办法！类似selenium的框架也有风车，感觉有点复杂，就不赘述了！

　　2、selenium的安装和使用

　　2.1 selenium的安装

　　您可以直接使用 pip install selenium 在 Ubuntu 上进行安装。出于以下原因：

　　1. selenium 3.x 启动，在 webdriver/firefox/webdriver.py 的 __init__ 中，executable_path="geckodriver"; 并且 2.x 是 executable_path="wires"

　　2. Firefox 47 及以上，需要下载第三方驱动，geckodriver

　　还需要一些特殊的操作：

　　1. 下载 geckodriverckod 地址：

　　 mozilla/geckodriver

　　2. 解压后，将geckodriverckod存放在/usr/local/bin/路径下：

　　 sudo mv ～/Downloads/geckodriver /usr/local/bin/

　　2.2 selenium的使用

　　1. 运行错误：

　　 driver = webdriver.chrome() TypeError: 'module' object is not callable

　　解决方法：浏览器名称需要大写Chrome和Firefox，即

　　2. 通过

　　 content = driver.find_element_by_class_name('content')

　　为了定位元素，该方法返回 FirefoxWebElement。当你想获取收录的值时，你可以通过

　　 value = content.text

　　到此为止这篇关于python如何爬取动态网站的文章介绍到这里，更多相关python如何爬取动态网站请在html中文网@k7上搜索以前的文章>或者继续浏览以下相关文章希望大家以后多多支持html中文站！

　　以上就是python如何抓取动态网站的详细内容。更多详情请关注html中文网站其他相关文章！

0

2021-10-25

动态网页抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

动态网页抓取(python爬取js执行后输出的信息--本篇内容)

0 个评论

发起人

AI时代内容工厂

动态网页抓取(python爬取js执行后输出的信息--本篇内容)

0 个评论

发起人

相关问题