网页中flash数据抓取(基于pile的正则表达式识别库uelp()识别)

优采云 发布时间: 2021-10-11 16:28

  网页中flash数据抓取(基于pile的正则表达式识别库uelp()识别)

  网页中flash数据抓取最常用的方法是正则表达式识别。目前市面上正则表达式抓取工具比较多,但是正则表达式识别引擎可谓鱼龙混杂,因此,想写一个识别正则表达式的工具能省去正则表达式抓取过程中的麻烦。目前正则表达式识别库不多,最常用的是pile()。本文要介绍的是一个基于pile()的正则表达式识别库uelp。

  本文内容基于python3.6进行编程。github地址:-rebbundle基本概念uelp提供了一种快速的正则表达式匹配方法(batchusing),接口比较简单,直接把pile()内嵌到flash中就可以识别flash中正则表达式。测试程序(仅内嵌到opcode_udim中):代码分析源代码:document.body.useinterval(6,0);functionresult(uref,request){request.post(uref.content);returnresult;}functionconnect(filename,uref){varreq=pile('url',uref);uref.undefined=filename.split('/')[-1];}functionresults(uref,request){console.log(uref);}array([],[],{'content':uref,'path':uref});functionpatch(uref,filename){varresult=uref.content;if(!(result==='jpg')&&!(result==='bmp')){result='jpg';}if(!(result==='bmp')&&!(result==='flv')){result='bmp';}if(!(result==='asf')&&!(result==='png')){result='asf';}returnresult;}functiondrawxmatch(uref,i){returni-1;}bundle(pypi,b);获取flashcookie获取.html文件中flashcookie从flash文件中提取useragent值-://sdcard/root/flash/data/filename.bwf?pg=myfx-存储bundle.cookie然后在正则表达式识别库中获取bundle.cookie就可以识别flash中的正则表达式了。

  bundle.cookie中会有txtcookie文件格式的正则表达式。基于字典的bundle存储方式为:name_repr=k={"name":"ttf_ua","content":"[name]={url:useragent+math.random()*100}"};content:{"txt":。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线