谷歌抓取网页视频教程( 谷歌浏览器的高级打开方式怎么样?教你几个使用小技巧 )
优采云 发布时间: 2022-04-18 21:19谷歌抓取网页视频教程(
谷歌浏览器的高级打开方式怎么样?教你几个使用小技巧
)
作为情报分析员每天打开工作电脑时条件反射点的工具,相信傅云君的老粉们并不陌生。但今天付云君要给大家介绍的是一种高级的谷歌浏览器打开方式,它可以帮助分析师打开信息采集新世界的大门。
谷歌浏览器的控制台F12对于前端开发者来说是一个强大的工具,但是这个控制台不仅对程序员非常友好,对情报分析员来说也很友好,他们经常可以找到普通网页中没有显示的信息。
首先,我们来看看控制台长什么样。打开 Google Chrome 并按键盘上的 F12 打开控制台。可以发现控制台收录不同的选项卡,包括元素(ELements)、控制台(Console)、源代码(Sources)、网络(Network)等。
Elements 标签主要用于查看或修改 HTML 元素和 CSS 属性。Console 选项卡一般用于执行一次性网页代码、查看调试日志信息或异常信息。
Sources页面用于查看页面的HTML文件源代码、JavaScript源代码、CSS源代码等。网络页面主要用于查看与网络连接相关的信息。看起来挺复杂的,别慌,这里有几个小窍门可以用来解决情报采集过程中的各种问题。
1. 查看网页信息发布时间
在工作过程中,分析师往往希望自己获取的数据是最新的,或者只获取一定时间段内的数据,但是很多网页并没有显示网页数据的发布时间。
这时候我们可以通过我们的控制台来锁定特定网页的更新和发布时间。我们可以以 知乎 为例:
对于下面的问题,无法直接在知乎平台查看具体的提问时间和修改时间。但是,如果我们使用控制台功能,我们可以在控制台中找到问题的具体时间。
首先,访问问题的链接,打开控制台,刷新页面,点击左侧的Elements
鼠标小图标,然后转到问题页面并单击问题标题。
此时,您可以发现Elements选项卡底部的代码框中多了几行。仔细查看代码或使用Ctrl+F功能查找“日期”、“修改”、“发布”等关键字(不同的网页可能不同),即可查出该页面发布或修改的时间。
比如下面的问题,可以看到知乎使用的关键字是“dateCreated”,表示发布时间,即29年3月12日,关键字“dateModified”表示修改时间,即是 29 年 10 月 23 日。
你也可以尝试不同的网站,积累更多相关关键词,或者在评论区分享你的发现!
2. 获取网页中的原创素材
另外,我们还可以使用F12来获取网页中的原创素材,例如:图片、视频、音频等。这是采集原创图像的好方法,我们以“wizardingworld”为例。
不得不说,作为一个哈老粉,魔法世界网页里的图片真的很精致。同上,访问wizardingworld,打开控制台刷新网页。
点击Application选项卡,在左侧目录栏找到Frames-Images,打开该目录,可以看到网页中的所有图片,还可以获取网页中图片大小和大小的说明。
视频也是如此,例如现场法庭听证会。打开控制台后,点击网络-媒体,刷新网页并播放视频,你会看到下面有一个文件,在文件名上点右键选择punch in a new tab,对应的视频就可以自动保存了,视频保存为后缀为m3u8的文件,可以用potplayer正常打开观看。
但是大家在使用这些网页的原创素材时一定要注意版权,不能乱用!
3. 自由复制网页信息
万不得已,使用 F12 自由复制您要复制的库内容。
分析师在浏览一些网页时,看到一些有价值的数据,想复制,但发现越来越多的图书馆资料网站开始限制用户复制,有的要求用户登录。有的可以' 甚至不选择文本。这里有两种解决方案可以让您自由复制。
对于一些使用jQuery的网站,复制文本时会弹出一个登录框要求用户登录。然后用同样的方法打开控制台,刷新网页,在控制台输入$=0 tab并回车运行,可以破坏网页js的执行,然后就可以复制了。
例如,一个库:
但是在使用的过程中,发现有些网站使用了$=0,并没有得到想要的结果(比如某个库)。
那么就需要使用第二种方法,直接在设置中禁用JavaScript,但是记得复制后取消这个禁用,否则可能会影响其他网页的正常访问。
具体操作如下: