移动应用市场自动化爬取技术的研究与应用

优采云 发布时间: 2020-08-22 10:50

  移动应用市场自动化爬取技术的研究与应用

  【摘要】:近两年来,由于应用软件数目过多,许多应用商店将大部分应用隐藏在了查询表单旁边的网路数据库中。移动应用软件的安全检查须要大量的应用样本,而这种应用属于Deep Web数据,这给联通应用软件的采集和检查带来了制约。传统的网路爬虫只能访问通过超链接才能抵达的Surface Web数据,而难以访问网路数据库中的Deep Web数据。目前针对这类Deep Web数据的采集技术主要是基于表层化的方法来采集,基于表层化的采集方式关键在于怎样生成合适的查询词,高效率地让网路数据库中的隐藏数据曝露下来。现有的表层化Deep Web数据采集方法主要是面向搜索引擎或大领域主题爬虫,而不是象联通应用软件信息这样的特定领域的Deep Web数据的。本文为了尽可能获取更多的应用软件样本,尤其是Deep Web中的应用数据,对已有的Web数据采集技术和目前主流的联通应用商店进行了研究,主要完成了以下工作:1.对本地应用库中不同类别的应用软件名称进行了动词和词频统计,并勾画了不同比列高频词覆盖应用曲线图,从数据可以得出联通应用软件在命名时用词(字)高度集中的推论,本文据此提出了一种基于样本词频的联通应用商店Deep Web数据采集方法,提取1%的本地应用软件名称中的高频词作为查询词递交至应用商店的应用查询表单,使隐藏在网路数据库中的应用信息曝露下来,再结合传统网路爬虫采集这些应用;2.设计了一个联通应用商店Deep Web数据爬取系统,该系统主要由爬虫模块、信息抽取模块和查询词生成模块构成,在采集完应用商店中的表层网路应用数据后,继续采集Deep Web应用数据,提高系统采集的应用数目;3.进行了系统运行实验,对5家主流联通应用商店进行了应用数据抓取。实验表明系统才能稳定运行,且与不收录Deep Web采集模块的scrapy爬虫采集系统相比,Deep Web数据爬取系统对腾讯应用宝、百度手机助手和360手机助手这3家应用商店的应用采集数量提高了9倍以上,对小米应用商店和华为应用市场的应用覆盖率也提高了将近1倍,数据表明系统才能有效地采集移动应用商店中的Deep Web数据,提高应用采集覆盖率,为联通应用软件的安全检查提供更充分的样本支持。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线