浏览器抓取网页(新建隐身窗口的学习目标和学习方法(一))

优采云 发布时间: 2022-01-17 15:16

  浏览器抓取网页(新建隐身窗口的学习目标和学习方法(一))

  学习目标

  1、了解创建新隐身窗口的目的;

  2、了解chrome中network的使用;

  3、了解如何找到登录界面;

  1 创建一个新的隐身窗口

  在浏览器中直接打开网站会自动带上之前网站中保存的cookie,但是爬虫第一次获取页面时并没有携带cookie。如何解决这种情况?

  使用隐身窗口,第一次打开网站,不带cookie,可以观察页面获取情况,包括对方服务器如何在本地设置cookie。

  2、chrome中网络的更*敏*感*词*

  

  2.1 保存日志

  默认情况下,页面跳转后,之前的请求url地址等信息会消失,查看perserve日志后会保留之前的请求。

  2.2 过滤器过滤

  当url地址较多时,可以在过滤器中输入一些url地址,对所有url地址都有一定的过滤作用。具体位置在上面第二张图中2的位置。

  2.3 监视特定类型的请求

  在上面第二张图中3的位置,有很多选择。沉默者全选,即各种请求都会被观察。在很多情况下,可以根据自己的目的选择所有右边的其他选项,例如常见的选项:

  XHR:在大多数情况下,它代表一个ajax请求;

  JS:js请求;

  CSS:css请求;

  但是很多时候我们并不能保证我们需要什么类型的请求,尤其是当我们不知道一个请求是不是ajax请求的时候,我们可以直接全选,前后观察。能。

  不要被浏览器中的一堆请求吓到。除了js、css、图片请求,其他的请求并不多。

  3 找到登录界面

  回顾人人网之前的爬虫,我们发现了一个登录界面,那么这个界面是从哪里来的呢?

  

  可以发现,这个地址就是表单中action对应的url地址。回顾前端知识点,可以发现是提交表单的地址,对应的提交数据只需要:在用户名的输入标签中,使用name的值作为key,用户名作为value,在password的input标签中,name的value作为key,password作为value。

  思考:

  没有对应action的url地址怎么办?

  3.2 通过抓包找到登录的url地址

  

  通过抓包可以发现这个url地址和请求权重中有参数,比如uniqueTimestamp和rkey以及加密密码

  这时候我们可以观察手机版的登录界面是否一样。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线