flash网页抓取工具(我试图抓取一个网站,具有某种Flash插件的请求标头)

优采云 发布时间: 2022-01-10 19:19

  flash网页抓取工具(我试图抓取一个网站,具有某种Flash插件的请求标头)

  我正在尝试抓取具有某种 Flash 插件的 网站 ,该插件可在我检索 html 后加载数据。该页面接收以下对象

  我试图定位在wireshark上收到的数据但没有成功。我对这个 Flash 插件或它的工作原理知之甚少。我想最坏的情况是我无法做到这一点。

  HttpWebRequest mainRequest = (HttpWebRequest)(WebRequest.Create(URL));

mainRequest.Method = "GET";

mainRequest.Proxy = null;

WebResponse mainResponse = mainRequest.GetResponse();

StreamReader dataReader = new StreamReader(mainResponse.GetResponseStream(), System.Text.Encoding.UTF8);

string data = dataReader.ReadToEnd();

dataReader.Close();

mainResponse.Close();

return data;

  有谁知道我可以接收这些数据的方法,或者让 webresponse 在接收之前等待数据注入到 html 中。任何帮助将不胜感激。

  更新:看来我可能对闪光物体走得太远了。我认为这只是填充表格时的加载*敏*感*词*。我一直在使用提琴手看看发生了什么。该页面在请求后返回,其中收录加载 div 和收录在其中的 flash 对象。几秒钟后,当数据准备好时,将返回另一个页面和数据。据我所知(我不在家,所以现在无法确认)新页*敏*感*词*有与原创页面相同的请求标头。fiddler 中没有 json 或 ajax 数据。客户端没有脚本可以导致我可以看到的刷新。我不明白是什么导致了这个更新。

  我已经简要地查看了网络浏览器对象,但我认为当我爬取大约 200 个页面时,这将是一个相当大的性能损失,目前需要一分钟左右。稍后我将尝试使用 amf 查看器来确认 flash 对象不是更新的源。

  我的猜测是服务器导致表单准备好后重新发送此页面。如果服务器正在寻找加载 div 并用数据表替换它,这会导致整个页面被重新发送吗?或者这不会出现在 ajax/json 数据中吗?如果是服务器重新发送数据,我怎样才能保持响应打开,直到我准备好发送新页面?

  谢谢。JM。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线