网页中flash数据抓取怎么办?如何用firebug获取?

优采云 发布时间: 2022-07-02 20:01

  网页中flash数据抓取怎么办?如何用firebug获取?

  网页中flash数据抓取

  这个可以用firebug获取,其实也就是让你先看他的返回的html数据,

  有一种api:。

  

  可以用优采云采集

  换个浏览器试试?

  有个网站:。在看不到的情况下。

  百度第一页数据拿到!

  

  明显是你的代码有问题,你可以测试下,有需要可以去我博客上看看我的网站部分代码:抓取效果一般为xml形式,步骤为先抓取百度首页代码,对该html文件,python中我用mongodb存放,然后通过https进行请求数据,该数据存放在一个php文件中,再通过php提供的xmlhttprequest对象对请求进行格式化,进行判断接受方的程序。

  实现的第一步:通过python读取html文件。这里写过一个爬虫,可以参考:python抓取百度首页页面格式化代码,只是通过个人理解,其实步骤也差不多,只是要将python程序的读取交给php来处理,同时我会根据实际情况来补充xmlxmlxmlxml等,还要单独学习python语言的高阶知识。只是做个示例,需要实现的地方太多,这里就不赘述了。

  request对象或者request.xmlhttprequest对象,对页面做处理,通过xmlxmlxmlxml来读取。实现的第二步:处理剩余的部分,爬取剩余页面代码。如果要存放到html,必须要给php那边提供xml数据格式,一般我是这样:xml模块也要学习,同时也要掌握http模块,根据实际情况,学习或者掌握其他模块。

  http模块的学习,可以参考python在网页xml格式处理处理,这里有个python自动分析xml文件格式的脚本:xml文件格式处理程序,可以学习一下。同时还要掌握其他模块的使用,php标准库有html模块,python也有html模块。一般使用xmlxmlxmlxmlxml对html格式做处理,处理完之后存入mongodb中进行下一步爬取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线