大数据技术中,关于用户行为剖析方面的有什么技术?

优采云 发布时间: 2020-08-20 02:09

  大数据技术中,关于用户行为剖析方面的有什么技术?

  一、用户行为剖析的巨大需求

  单从数据组成的角度来说,一个建立的闭环数据源主要是分成三大块:第一块是用户行为数据,第二块是服务端日志数据,第三块是交易 Transaction 数据。其中,除了交易数据会时常被储存在离线数据库中,通过 ETL 来获取剖析以外,行为数据和日志数据好多时侯都是近似的,完备的用户行为数据基本能覆盖绝大多数的服务端日志数据,同时上面收录着好多日志数据上面所缺少的信息。

  从技术发展角度来说,最近几年发展最快的可以说是后端,每个月就会有好多新的东西出现,整体趋势是往单页应用发展,追求用户体验。同时,还有移动端应用,也形成着大量的行为数据,这些都不会跟服务端有过多交互。

  所以,从应用提供商来说,我们须要晓得屏幕前的人是如何使用我们的产品的,洞悉用户行为背后的价值。

  从今年 12 月 8 号公测及发布到如今早已过去半年时间了,目前有几百家顾客在使用。我总结了一下顾客常常问的剖析需求,大致可以分成三个场景:

  Δ第一个场景: 我做了一次活动,我写了一篇文章,我想知道究竟疗效怎样,有没有给我带来足够的流量,也就是市场营销疗效评判。我们有些顾客,每年有上百万的市场预算在 SEM 上,但是却完全不知道那些钱花出去究竟带来了多少回报。

  Δ第二个场景: 用户激活流程是否合理,辛辛苦苦导出了流量,这些流量有没有转化为用户,注册流上面每一步转化了多少,流失了多少,没有转化的去了哪儿。在这个基础上,我们应当如何优化,优化后的疗效是如何的,这周的转化率比上周是否有进步,差别是如何造成的等等。

  Δ第三个场景: 这些注册用户,有没有留下来成为一个忠诚用户甚至付费用户。留下来的用户,是因为哪些留下来的。是否存在一个魔法数字,可以去极大的提升用户存留,比如: LinkedIn 发现在第一周降低 5 个社交关系的用户存留度很高; Facebook 发现在第一周降低 10 个好友的用户存留度很高; Twitter 发现在第一周有 30 个 followers 的用户存留度很高; Dropbox 发现在第一周安装两个以上操作系统的用户存留度很高。 这些都是在存留剖析中发觉的魔法数字。

  二、复杂而易错的传统剖析方式

  归根结底,所有的剖析最终都是为了商业服务,而商业是为人服务的。所以,用户行为剖析就是我们须要构建一套基于用户行为的剖析体系,在了解用户“谁”做了“什么”,“怎么”做的之外,进而明白是“为什么”做,对症下药,转化成为优化行动。

  分析是一个长时间优化的过程,需要我们持续监控数据的变化。而数据指标不仅行为数据指标外还有一类,我们称之为虚荣指标,比如 PV、UV 之类流量概览性数据,这些指标见到了也就看见了,没法指导我们做的更好。用户行为数据指标则是另外一类,比如我们前面介绍的用户获取、用户激活、用户存留之类,了解这种行为前面就会对应到一个优化流程,所以也称作 Actionable Metric,可执行指标,这也是用户行为数据的魅力。

  ● 那么接下来,我们要开始跟踪用户行为了。

  一般可以分为以下七步:

  1.确定剖析场景或目标。

  确定一个场景或一个目标。比如,我们发觉好多用户访问了注册页面,但是最终完成注册的极少,那么我们的目标就是提升注册转化率,了解为何用户没有完成注册,是哪一个步骤堵住用户了。

  2.思考须要了解什么数据。

  思考什么数据我们须要了解,帮助我们实现这个目标。比如对于之前的目标,我们须要拆解从步入注册页面到完成注册的每一个步骤的数据,每一次输入的数据,同时,完成或未完成这种步骤的人的特点数据。

  3.确定谁来负责搜集数据?

  谁负责搜集这种数据,一般是我们工程师。

  4.什么时候评估和剖析?

  采集上来的数据怎么剖析,什么时候来评估采集到的数据。

  5.如何给出优化解决方案?

  发现问题后,怎么来出解决方案。比如,是否在设计上改进,或者是否是工程上的 bug。

  6.谁负责实现解决方案。确定方案的施行责任人。

  7.如何评估解决方案的疗效?

  下一轮数据采集和剖析,回到第一步继续迭代。

  知易行难。这整个流程里,第 2 步到第 4 步是关键。目前传统的服务商例如 GA、Mixpanel、友盟所采用的方法我称之为 Capture 模式。通过在客户端埋下确定的点,采集相关数据到云端,最终在云端做呈现。比如图中这个示例,相信在座的诸位应当都有写过类似的代码。

  Capture 模式对于非探索式剖析来说,是一个特别行之有效的方式。然而,同时对参与整个流程的人也提出了特别高的要求:

  Δ缺点1:依赖经验导向

  Capture 模式十分依赖人的经验和直觉,不是说经验和直觉不好,而是有时我们自己也不晓得究竟哪些是好的,经验反倒会成为一个先入为主的负担,我们须要用数据来测试来证明。

  Δ缺点2:沟通成本高

  另外,一个有效的剖析结果,依赖于数据的完整性和完备性。跟不少企业沟通后,不少的吐槽都是“连日志格式都统一不了”,更别提后续剖析了。这不是具体人的问题,更多是协作沟通的问题。参与人越多,产品总监、分析师、工程师、运营等等,每个人的专业领域又各不相同,出现误会很正常了。曾经跟我们的 CEO Simon 交流过,他在 LinkedIn 带领数据剖析部门的时侯,LinkedIn 专门成立了一个多达 27 人的埋点团队,每天开会,就是为了统一埋点的格式和位置,经常一开就是几个礼拜。

  Δ缺点3:大量时间数据清洗和数据剖析代码侵入

  另外,由于需求的多变性,埋点分成多次加入,缺乏统筹设计和统一管理,结果自然是无比丑恶。所以我们数据工程师还有个很大的工作是数据清洗,手动跑 ETL 出报表。根据统计,绝大多数剖析工作,百分之七十到八十的时间是在做数据清洗和自动 ETL,只有百分之二十左右在做真正有业务价值的事情。另外一方面,作为一个有洁癖的工程师,最恨的就是大量的剖析代码侵入了我的业务代码,删不敢删,改不敢改,日积月累,最终代码库整个就混乱了。

  Δ缺点4:数据漏采错踩

  以上都还是好的,最使人恼火的是,上线了,发现数据采集错了或则漏了,修正后,又得重新跑一遍流程,一个星期两个星期又过去了。这也是为什么,数据剖析工作是这么历时通常以月计的缘由,非常低效。

  三、无需埋点的数据剖析原理

  在经历了无数个痛楚的清晨之后,我们决定要换个思路思索,希望能最大限度的增加人为错误,我们称之为 Record 模式。区别于 Capture 模式,Record 模式是用机器来代替人的经验,自动采集用户在网站或者应用里的全量行为数据。因为自动化,我们从剖析流程的源头开始就控制了数据的格式。

  所有数据,从业务角度出发,划分为 5 种维度: Who,行为背后的人,具有什么属性;When,什么时候触发的这个行为;Where,城市地区浏览器甚至 GPS 等;What,也就是内容;How,是如何完成的。基于对信息的重构,保证了数据从源头就是干净的,在此基础之上,我们完全可以把 ETL 自动化,需要哪些数据可以随时回溯。

  回到之前流程的第二步到第四步,我们早已把参与人从多方降低到基本就一方,无论是产品总监、分析师还是营运人员,都可以使用可视化工具来查询和剖析数据,真正做到所见即所得。不仅是 PC,还支持 iOS、Android 和 Hybrid,可以进行跨屏的用户剖析。

  作为一家用户行为剖析工具提供商,要做的并不只是用于内部,还须要适应外部成千上万的网站和应用,所以在实现过程中我们做了好多探求:

  ● 自动用户行为采集

  目前我们所接触的 GUI 程序,无论是 Web App、iOS App 还是 Android App,都是基于两个原则,树形结构和风波驱动模型。无论是 Web 上的 DOM 结点结构,还是 App 上的 UI 控件结构,都是建立好的一颗完整的树状结构渲染在页面或则屏幕上。所以通过对树结构的监控和测量,我们就可以十分便捷地晓得什么结点发生了变化,何时发生了变化,发生了哪些变化。同时,当用户做了某个操作,比如键盘点击、屏幕触控,都会触发一个风波,绑定了该风波的回调函数都会被触发开始执行。基于此两点认识,在 SDK 里面怎么实现无埋点就比较清楚了。只要能在结点变化或则风波发生的时侯触发我们定义的函数,那么我就晓得风波发生的多重信息。

  ● 数据可视化

  如何把采集到的数据和业务目标匹配在一起。我们的解决方案是我们的可视化工具。刚才早已提及任何一个原子数据,都被拆解成 5 种不同分类的维度。所以,当我们在可视化工具上面做匹配时,也就是对于不同维度信息的匹配。比如一个链接的点击,会匹配到内容或则跳转地址也就是 What,点击行为也就是 How。还有其在页面的定位信息,比如在树状结构中的层次位置,是否带一些 id、class 或者 tag,都是拿来做数据匹配的信息。我们开发了一套智能匹配系统,通过对用户真实行为的学习,建立了一套规则引擎,用于元素匹配。也正由于采集到的是全量数据,整个匹配系统有如基因进化通常,既有对过去历史的记忆,也有迎合新结构的演化变化。

  ● BI

  商业剖析我们在系统设计过程中,整个 Data Pipeline 过程中,数据经过处理后,会依据优先级不同,首先通过 Spark Streaming 实时的处理已定义数据,然后每过一段时间对匹配到的数据做离线预聚合,多维剖析十分灵活。

  用户行为数据采集的目的是通过了解用户过去做的行为,用来预测未来发生的事情,无需埋点,随时回溯数据,让产品总监一个人就可以搞定用户行为剖析的全部流程。我们希望能提供一个简单、迅速和规模化的数据剖析产品,能极大地简化剖析流程,提交效率,直达业务。而这一切的基础,就是我们从第一天开始就始终在研制的无埋点智能全量数据采集,基于此优化产品体验,实现精细化营运,用数据驱动用户和产值下降。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线