网页中flash数据抓取(网页中flash数据抓取是个比较棘手的问题,怎么办)

优采云 发布时间: 2021-10-14 23:03

  网页中flash数据抓取(网页中flash数据抓取是个比较棘手的问题,怎么办)

  网页中flash数据抓取是个比较棘手的问题,我抓过一段时间,所有网页都爬过了,感觉很难很耗时间!最后发现竟然和速度有关,关键是在localstorage或者sessionstorage中存放,上面有个图是sessionstorage在抓取,从window.scrolltop,window.open-btn等地方看到,抓取器直接在localstorage中操作即可,没有数据交互过程!可能有人会问,数据不是那么容易获取吗?数据我们可以通过websocket来交互,如果抓不到或者出现刷新不到的情况,可以用json或者js消息在服务器中传递,传递的对象保存到本地,通过sessionstorage保存到文件中,用dom的方式渲染前端网页,然后我还想到还有一种方式,那就是通过js获取执行then回调函数的变量varx=1;then{x=2;}response.close();这时候我发现我抓取太久了,忘记上诉代码了,只是很奇怪,用http和https都可以抓取,然后用本地解析html报文,好像也可以,但是我先抓了某网站,再抓某局域网其他网站,根本没办法复制粘贴到其他网站中用x:=x.index.js或者x:=x.index.html等进行抓取,也没有办法通过cookie来抓取一些静态资源!上图是我本地浏览器抓取路径下的html文件的抓取结果(点击浏览器下载本地,然后粘贴到网页上)。

  嗯,这就是说方式都不是特别复杂,但是抓取时间很长!最后也想到可以用bs4包装页面,然后通过pageheader模拟登录访问,然后把html页面保存在本地!然后用多线程模拟对会话的一些操作,可以通过对js脚本的调用来处理js事件,比如点击按钮然后显示输入框之类的,也可以在某些端口抓取报文等等!有时候就发现不会用浏览器自带的xx浏览器xx浏览器xx浏览器等等,因为当你需要抓取一些静态页面时,访问这些浏览器,有时会说请求不对,可能是cookie、proxy代理或者代理池不足,无法做到网页的抓取!后来就想到只要是一些静态页面,有时候xhr服务端没有返回,我们可以通过xmlhttprequest来进行数据传递,这样数据包仅仅从你自己的浏览器发送,对方浏览器就不会返回给你数据包!然后我就想到通过sessionstorage中保存!因为网页没有做sessionstorage的设置,会话状态也不会持久保存!用bs4包装xmlhttprequest:然。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线