谷歌抓取网页视频教程(浏览器查看JavaScript的consolelog信息,写网页时比较有用Sources)

优采云 发布时间: 2022-03-27 21:08

  谷歌抓取网页视频教程(浏览器查看JavaScript的consolelog信息,写网页时比较有用Sources)

  Python爬虫谷歌浏览器F12抓包过程原理分析,爬虫,网页,浏览器,数据,是的

  Python爬虫谷歌Chrome F12抓包流程原理分析

  第一财经站长站,站长之家为大家整理了Python爬虫Google Chrome F12抓包流程原理分析的相关内容。

  浏览器打开网页的过程就是爬虫获取数据的过程,两者是一样的。浏览器渲染出来的网页是彩色的数据集合,爬虫获取网页的源代码htm。有时候,我们在网页的html代码中找不到想要的数据,但是浏览器打开的网页却有这个数据。. 这是浏览器通过ajax技术异步加载(偷偷下载)这些数据的。

  大家不禁要问:那你怎么看浏览器偷偷下载的数据呢?

  答案是谷歌Chrome浏览器的F12快捷键。也可以通过右键菜单“Inspect”打开Chrome自带的开发者工具。开发者工具会出现在浏览器网页的左侧或下方(可调),如下所示:

  

  让我们简单看看它是如何使用的:

  谷歌浏览器捕获:1. 顶行菜单

  左上角的箭头用于点击元素查看页面

  第二个手机和平板的图标用于模拟网页在移动终端上的显示。

  Elements 查看呈现的网页标签元素

  提示的是渲染后的完整网页的html(包括异步加载的图片、数据等),而不是原来下载的html。

  Console 查看 JavaScript 控制台日志信息,在编写网页时很有用

  Sources 显示网页源代码、CSS、JavaScript代码

  Network 查看所有加载的请求,对爬虫很有帮助

  不管后者。

  Google Chrome 数据包捕获:2. 重要区域

  图中红框的两个按钮比较有用,数字2是清除请求记录;数字3是保留记录,当网页有重定向时非常有用

  图中绿色区域是加载整个网页,以及浏览器的所有请求记录,包括URL、状态、类型等。在写爬虫的时候,我们是来这里找线索,挖金子的。

  底部编号为 4 的红框表示该网页总共被加载了 181 次。这个数字如此惊人,以至于让人对七种浏览器感到心疼。

  单击请求的 URL,右侧会出现一个新窗口,显示有关请求的信息:

  

  图中左边的红框是点击的请求URL;绿色框是详细信息窗口。

  详细信息窗口包括Headers(请求头)、Preview(预览响应)、Response(服务器响应内容)和Timing(耗时)。

  Preview 和 Response 帮助我们检查请求中是否有爬虫想要的数据;

  headers 帮助我们在爬虫中重建 http 请求,以便爬虫获取与浏览器相同的数据。

  了解并熟练使用 Chrome 的开发者工具,每个人都可以顺利编写自己的爬虫。

  以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持第一财经站长站。

  以上就是Python爬虫Google Chrome F12抓包过程原理分析的详细介绍。欢迎大家对Python爬虫谷歌Chrome F12抓包过程原理分析内容提出宝贵意见

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线