抓取网页新闻(《js文件》服务器爬js参数替换文件)

优采云 发布时间: 2021-11-03 05:02

  抓取网页新闻(《js文件》服务器爬js参数替换文件)

  抓取网页新闻的时候,除了可以爬js文件,我们还可以在js文件里面获取自己想要的信息,一般来说我们的方法是通过解析js文件,再解析加载,并把所有的页面节点相加。注意这个js文件在服务器上应该是multipart/form-data格式文件,关于服务器的要求可以在这里查询。首先我们要读取文件里面的cookie,但我们还需要获取到用户的隐私信息,这样才能生成用户的历史数据,我们要把所有的数据通过一个get请求发送到对应服务器,以了解用户是否存在登录,我们一般会有get或post请求设置参数,比如根据设置可以参考这个命令:post/get:params/cookiesettings这里有人问,post请求会不会被拒绝或封闭?大可不必担心,如果登录的话,就没有登录的数据,你可以完全不发送post请求,这样用户打开浏览器,有你服务器的用户名和密码,也能登录成功。

  但如果登录失败,那你发送的post请求会被接收到,存在你服务器了,也只能等你将你的用户名和密码传回来才能登录,所以不必担心。通过解析设置参数,设置好之后,代码中就会有post后面的这几个参数,如accept-language、content-type、content-length、accept-encoding、accept-language-transparency、host等,这些参数可能会在get的请求参数中显示不全,我们可以做一些替换,具体替换可以参照google的tagparameter文件,有很多替换方法,这里没有做展示。

  简单替换就是把post参数的前三个参数替换成accept-encoding,然后再用get去请求,这样就可以显示所有的get请求了。替换完一个get请求之后就可以执行我们设置的参数了,这里使用javascript中的token属性,如下的get:text/javascript:alert(‘请求请求成功’)token属性格式为‘'{prototype:this,signature:''}’,这个就是你js文件加载的标识了,但是这个cookie的prototype里面的值不能是http协议,比如要替换成‘http'’。

  这样发送到服务器就等于做一个get请求,那我们就可以看看cookie里面的值。首先我们这个post请求中的post-user-agent就是该用户的useragent,有些地方我们也可以把useragent作为http协议属性。我们通过js设置默认值为‘mozilla/5.0(windowsnt6.1;wow64)applewebkit/537.36(khtml,likegecko)chrome/24.0.1404.97safari/537.36’,如下,这样cookie里面的值就是mozilla/5.0(windowsnt6.1;wow64)applewebkit/537.36(khtml,likegecko)chrome/24.0.1404.97safari。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线