浏览器抓取网页(新建隐身窗口的学习目标和学习方法(一))
优采云 发布时间: 2022-01-17 15:16浏览器抓取网页(新建隐身窗口的学习目标和学习方法(一))
学习目标
1、了解创建新隐身窗口的目的;
2、了解chrome中network的使用;
3、了解如何找到登录界面;
1 创建一个新的隐身窗口
在浏览器中直接打开网站会自动带上之前网站中保存的cookie,但是爬虫第一次获取页面时并没有携带cookie。如何解决这种情况?
使用隐身窗口,第一次打开网站,不带cookie,可以观察页面获取情况,包括对方服务器如何在本地设置cookie。
2、chrome中网络的更*敏*感*词*
2.1 保存日志
默认情况下,页面跳转后,之前的请求url地址等信息会消失,查看perserve日志后会保留之前的请求。
2.2 过滤器过滤
当url地址较多时,可以在过滤器中输入一些url地址,对所有url地址都有一定的过滤作用。具体位置在上面第二张图中2的位置。
2.3 监视特定类型的请求
在上面第二张图中3的位置,有很多选择。沉默者全选,即各种请求都会被观察。在很多情况下,可以根据自己的目的选择所有右边的其他选项,例如常见的选项:
XHR:在大多数情况下,它代表一个ajax请求;
JS:js请求;
CSS:css请求;
但是很多时候我们并不能保证我们需要什么类型的请求,尤其是当我们不知道一个请求是不是ajax请求的时候,我们可以直接全选,前后观察。能。
不要被浏览器中的一堆请求吓到。除了js、css、图片请求,其他的请求并不多。
3 找到登录界面
回顾人人网之前的爬虫,我们发现了一个登录界面,那么这个界面是从哪里来的呢?
可以发现,这个地址就是表单中action对应的url地址。回顾前端知识点,可以发现是提交表单的地址,对应的提交数据只需要:在用户名的输入标签中,使用name的值作为key,用户名作为value,在password的input标签中,name的value作为key,password作为value。
思考:
没有对应action的url地址怎么办?
3.2 通过抓包找到登录的url地址
通过抓包可以发现这个url地址和请求权重中有参数,比如uniqueTimestamp和rkey以及加密密码
这时候我们可以观察手机版的登录界面是否一样。