谷歌抓取网页视频教程( 虚拟浏览器chrome去爬取微博大V-财宝宝的微博长文 )
优采云 发布时间: 2022-03-01 04:13谷歌抓取网页视频教程(
虚拟浏览器chrome去爬取微博大V-财宝宝的微博长文
)
0.学习路径图
大家好,这次博主分享的是微博的长文,一个大V-财宝,使用虚拟浏览器ChromeDriver爬取。
1.ChromeDriver介绍
WebDriver 是一个开源工具,用于在许多浏览器上自动测试 web 应用程序。它提供导航到网页、用户输入、JavaScript 执行等功能。ChromeDriver 是一个独立的服务,它为 Chromium 实现了 WebDriver 的 JsonWireProtocol 协议。简单来说就是一个虚拟浏览器,可以模仿人类的鼠标点击、滑动和键盘输入,解决我们日常爬虫遇到的动态网页问题。
什么是动态网页?
所谓动态网页,是指相对于静态网页的一种网页编程技术。对于静态网页,随着html代码的生成,页面的内容和显示效果基本不会改变——除非你修改了页面代码。动态网页并非如此。虽然页面代码没有改变,但显示的内容会随着时间、环境或数据库操作的结果而改变。
现在流行的商业爬虫框架scrapy适合解决爬取静态网页的问题(下期会讲),然而越来越多的网站采用动态设计,微博也是如此,所以本博主打算写一篇教程,教大家如何使用虚拟浏览器chrome驱动抓取微博大V-财宝的微博长文。
这位大V放弃了他微博的版权,而他的微博基本都是文字版的,而且博文格式好处理,所以博主为了不承担法律责任,不写一些杂七杂八的处理,也是为了方便教学功能,并选择在他的微博上教学。(博主辛苦吗?)
言归正传,我们进入chrome驱动的学习。
2.实验准备
一种。运行环境:Windows Anaconda 3.7.2
湾。下载chrome浏览器
C。下载chrome驱动:
下载链接/pachongshan gdexuebi/p/7086564.html
d。chrome驱动存放位置
放到AnacondaScripts文件夹下(如下图)
所以记得安装anaconda3!
3.实验步骤
一种。实验前说明:一般来说,爬取一个网页的难度是:PC端>移动端m>wap。由于微博没有wap版,博主选择了手机版进行爬取。
湾。代码小视频讲解
C。代码 git 链接
ChileWang0228/python_tutorial
4.总结
随着越来越多的网站采用动态设计,学习使用虚拟浏览器进行爬虫已经成为每个爬虫工程师必备的技能。上面的代码短短几十行就完成了,导致chrome驱动的一些比较有趣的功能还没有介绍,比如模拟鼠标点击、下拉菜单栏等,我附上几个链接介绍一下他的具体功能。学习后,您可以尝试如何使用虚拟浏览。实现模拟登录微博的设备。
学习是这样的。构建好主框架后,后续的添加就容易多了。
下一期我会讲使用商业爬虫框架处理静态网页,动静结合,小伙伴们基本可以学习网络爬虫模块了。
希望本教程能帮助你有所收获,谢谢~
selenium 简单使用 Selenium(Python web 测试工具)基本使用详解
Selenium 定位元素 WebDriver 入门 如何在 Linux 上使用虚拟浏览器 Linux+Selenium+FireFox 安装