谷歌抓取网页视频教程( 虚拟浏览器chrome去爬取微博大V-财宝宝的微博长文 )

优采云发布时间: 2022-03-01 04:13

　　谷歌抓取网页视频教程(

虚拟浏览器chrome去爬取微博大V-财宝宝的微博长文

)

　　0.学习路径图

　　大家好，这次博主分享的是微博的长文，一个大V-财宝，使用虚拟浏览器ChromeDriver爬取。

　　1.ChromeDriver介绍

　　WebDriver 是一个开源工具，用于在许多浏览器上自动测试 web 应用程序。它提供导航到网页、用户输入、JavaScript 执行等功能。ChromeDriver 是一个独立的服务，它为 Chromium 实现了 WebDriver 的 JsonWireProtocol 协议。简单来说就是一个虚拟浏览器，可以模仿人类的鼠标点击、滑动和键盘输入，解决我们日常爬虫遇到的动态网页问题。

　　什么是动态网页？

　　所谓动态网页，是指相对于静态网页的一种网页编程技术。对于静态网页，随着html代码的生成，页面的内容和显示效果基本不会改变——除非你修改了页面代码。动态网页并非如此。虽然页面代码没有改变，但显示的内容会随着时间、环境或数据库操作的结果而改变。

　　现在流行的商业爬虫框架scrapy适合解决爬取静态网页的问题（下期会讲），然而越来越多的网站采用动态设计，微博也是如此，所以本博主打算写一篇教程，教大家如何使用虚拟浏览器chrome驱动抓取微博大V-财宝的微博长文。

　　这位大V放弃了他微博的版权，而他的微博基本都是文字版的，而且博文格式好处理，所以博主为了不承担法律责任，不写一些杂七杂八的处理，也是为了方便教学功能，并选择在他的微博上教学。（博主辛苦吗？）

　　言归正传，我们进入chrome驱动的学习。

　　2.实验准备

　　一种。运行环境：Windows Anaconda 3.7.2

　　湾。下载chrome浏览器

　　C。下载chrome驱动：

　　下载链接/pachongshan gdexuebi/p/7086564.html

　　d。chrome驱动存放位置

　　放到AnacondaScripts文件夹下（如下图）

　　所以记得安装anaconda3！

　　3.实验步骤

　　一种。实验前说明：一般来说，爬取一个网页的难度是：PC端>移动端m>wap。由于微博没有wap版，博主选择了手机版进行爬取。

　　湾。代码小视频讲解

　　C。代码 git 链接

　　ChileWang0228/python_tutorial

　　4.总结

　　随着越来越多的网站采用动态设计，学习使用虚拟浏览器进行爬虫已经成为每个爬虫工程师必备的技能。上面的代码短短几十行就完成了，导致chrome驱动的一些比较有趣的功能还没有介绍，比如模拟鼠标点击、下拉菜单栏等，我附上几个链接介绍一下他的具体功能。学习后，您可以尝试如何使用虚拟浏览。实现模拟登录微博的设备。

　　学习是这样的。构建好主框架后，后续的添加就容易多了。

　　下一期我会讲使用商业爬虫框架处理静态网页，动静结合，小伙伴们基本可以学习网络爬虫模块了。

　　希望本教程能帮助你有所收获，谢谢~

　　selenium 简单使用 Selenium（Python web 测试工具）基本使用详解

　　Selenium 定位元素 WebDriver 入门如何在 Linux 上使用虚拟浏览器 Linux+Selenium+FireFox 安装

0

2022-03-01

谷歌抓取网页视频教程

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

谷歌抓取网页视频教程( 虚拟浏览器chrome去爬取微博大V-财宝宝的微博长文 )

0 个评论

发起人

AI时代内容工厂

谷歌抓取网页视频教程( 虚拟浏览器chrome去爬取微博大V-财宝宝的微博长文 )

0 个评论

发起人

相关问题