网页中flash数据抓取(网页中flash数据抓取已经不是什么新鲜事了?)

优采云 发布时间: 2022-04-05 01:02

  网页中flash数据抓取(网页中flash数据抓取已经不是什么新鲜事了?)

  网页中flash数据抓取已经不是什么新鲜事了,在网页爬虫框架还没出现前,它可以在boilerplate(boilerplatevsactivex)中实现。因为activex是mfc的,而activex的加载过程是缓慢的,因此支持flash是很有必要的。webdriver可以被作为python的下一代webdriver来使用。

  另外,等许多silverlight开发的webflash框架也可以用作flash支持。flash通常作为http请求参数传递至浏览器,webdriver可以借助webdriverengine在http请求之前加载flash并执行相应的pythonwebapi。flashengine可以被自定义的flash组件替换,从而达到编程时解决flash支持问题的目的。

  webdriver支持具有对flash支持的浏览器,restful库如googleapiservice也可以用作services。以上总结的是方便编程使用flash/silverlight/pythonwebapi三者搭配完成页面的抓取。但目前很多数据都是在后端爬取,比如某公司通过爬取某个ip的人的名单爬取一个产品的list,也不需要使用flash。

  但是针对某些网站明文要求restfulapi接口才能提供给我们,后端没有restfulapi接口而需要数据库访问时,我们就必须自己重新写flash内核的代码,当然这时方便抓取也就必须考虑安全和性能。在开发这个项目时,我也考虑了很多技术问题,包括数据库访问接口和http方式的浏览器访问接口,在各种项目中都遇到过。

  经过折腾,我有如下感受:1.现在数据的可靠性不仅仅是传递不可信任的url导致的,更多是数据被篡改导致的数据丢失。很多数据是上传到数据库里保存的,在使用restfulapi访问时无法从根本上保证数据来源。2.网站、硬件本身的访问并不受数据源的影响,因为硬件通常是非公开公司采购的,也没有保修期,而网站则通常有数据库和服务器等保障安全。

  3.某些时候数据来源于网站使用的公开数据,没有经过数据安全校验,或者随着前端请求url的不同,也会泄露一些数据。基于以上这些想法,于是有了一个数据可靠性相对比较好的ssr(数据安全保证的ssr),还有在其它ssr中使用了boilerplate等技术(boilerplatevsactivex)。和其它后端获取数据的技术一样,这些新技术都会遇到一些安全问题,但是这是flash没法解决的。

  例如,在对一个url进行flash解析时,将比对返回给数据库的内容的可靠性。因为一些网站flash解析后并不知道,这个url里面是否包含数据,因此要做更新。这样就可能会导致数据泄露。正是由于安全性不能得到保证,这些网站才会利用flash通过http传递数据。flashengine类库被人为的加入一些奇怪的加密(。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线