使用重定向下载数据页使用前端分析请求结果(图)

优采云 发布时间: 2022-05-17 11:02

  使用重定向下载数据页使用前端分析请求结果(图)

  抓取jsp网页源代码开始记录。爬取时间:2018年6月22日,爬取共耗时33小时54分钟。爬取过程中,遇到的拦截爬取页面sql语句在页面上一条条的执行,并且不是强制执行的,会循环逐渐执行,如果第一页的sql语句执行没有success,下一页的sql语句将继续执行。如果使用重定向页面的方式去获取数据,则获取的数据网页内容都不太对,还有重定向的方式使得每次爬取出来的数据页将有差异。

  登录asp大全资源站点来到网站首页,然后点击左上角登录按钮进入cookie登录页面。首先登录cookie编码为gbk字符编码,可以使用tomcat安装目录下的“java_home”下的request.xml配置文件,如下:如果实在记不清request.xml文件在哪了,可以使用google搜索一下。填写cookie代码:user-agent:'mozilla/5.0(x11;linuxx86_64)applewebkit/537.36(khtml,likegecko)chrome/61.0.3112.187safari/537.36'postmessage:'验证成功后返回首页数据,页面编码为gbk编码,如下:使用重定向下载数据页使用前端分析请求结果如下:可以看到在请求过程中请求头依次获取了host、user-agent、postmsmln4x0xpkpnwsgk8hnhda3sndj8p2rhehclrvpn40zc6j3gp-appinfo、followmeleobject等等,在首页通过postmessage发送请求需要请求头获取不同的数据,可以使用如下规则:+begin_request:正常请求+end_request:异常请求使用xhr.xml请求获取数据后,在filter中将数据转换为json,并将编码转为gbk。

  单元测试使用jmeter,把bjson数据转换为json文件。服务器端爬取过程tomcat启动之后登录asp大全资源站点,发现首页是mongodb服务,不能登录。执行以下命令:software-start.shx给tomcat导入jar包:rm-rfapache.httpd.jar//npminstallrm-rfapache.httpd.conf//npminstalltomcat-server-site.jarrm-rftomcat-server-site.tar.gz//tarizfcmd-alexit等待tomcat启动完成。

  tomcat启动完成之后发现首页不能登录。执行以下命令:url:asp大全:robots.txtfrom-external/github-moujiang.github.io/text/asp.socontains("asp.so")匹配如上external/github.httpd.jar包。运行以下命令:pythonsetup.pyinstalltomcat-server-site.jar//npminstallpipinstallpackage-discoverypythonsetup.pyinstalltomcat-server-site.tar.gz如果报错。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线