flash网页抓取工具(我试图抓取一个网站,具有某种Flash插件的请求标头)
优采云 发布时间: 2022-01-10 19:19flash网页抓取工具(我试图抓取一个网站,具有某种Flash插件的请求标头)
我正在尝试抓取具有某种 Flash 插件的 网站 ,该插件可在我检索 html 后加载数据。该页面接收以下对象
我试图定位在wireshark上收到的数据但没有成功。我对这个 Flash 插件或它的工作原理知之甚少。我想最坏的情况是我无法做到这一点。
HttpWebRequest mainRequest = (HttpWebRequest)(WebRequest.Create(URL));
mainRequest.Method = "GET";
mainRequest.Proxy = null;
WebResponse mainResponse = mainRequest.GetResponse();
StreamReader dataReader = new StreamReader(mainResponse.GetResponseStream(), System.Text.Encoding.UTF8);
string data = dataReader.ReadToEnd();
dataReader.Close();
mainResponse.Close();
return data;
有谁知道我可以接收这些数据的方法,或者让 webresponse 在接收之前等待数据注入到 html 中。任何帮助将不胜感激。
更新:看来我可能对闪光物体走得太远了。我认为这只是填充表格时的加载*敏*感*词*。我一直在使用提琴手看看发生了什么。该页面在请求后返回,其中收录加载 div 和收录在其中的 flash 对象。几秒钟后,当数据准备好时,将返回另一个页面和数据。据我所知(我不在家,所以现在无法确认)新页*敏*感*词*有与原创页面相同的请求标头。fiddler 中没有 json 或 ajax 数据。客户端没有脚本可以导致我可以看到的刷新。我不明白是什么导致了这个更新。
我已经简要地查看了网络浏览器对象,但我认为当我爬取大约 200 个页面时,这将是一个相当大的性能损失,目前需要一分钟左右。稍后我将尝试使用 amf 查看器来确认 flash 对象不是更新的源。
我的猜测是服务器导致表单准备好后重新发送此页面。如果服务器正在寻找加载 div 并用数据表替换它,这会导致整个页面被重新发送吗?或者这不会出现在 ajax/json 数据中吗?如果是服务器重新发送数据,我怎样才能保持响应打开,直到我准备好发送新页面?
谢谢。JM。