我的职位不是数据分析师，属于既做运营、又做数据

优采云发布时间: 2021-08-10 01:04

　　我的职位不是数据分析师，而是数据操作。很多工作与数据分析重叠，既属于操作又属于数据，也可能与其他角色混合。

　　一开始，我接触了运营数据。我没有编程基础或统计知识。我在大学上过几门课，只能和同学一起做，捂着脸哭。可能我的零经验经验对大多数对数据分析感兴趣的朋友有参考价值。

　　刚开始工作的时候，我什至不知道vlookup，也没有人教我。 Excel 只能执行基本操作。那个时候要关联多份报告，我赶紧上手，一张一张的复制粘贴……如果太多，我会哭的。后来我觉得这不是办法。于是借助万能的百度：

　　“excel 如何匹配来自多个表的数据。”

　　所以看vlookup函数。每次使用时一定要先阅读网上的样例，否则会出现各种问题。使用它需要几次。

　　当时对运营的数据要求不错，很多人都在断断续续的琢磨。比如什么样的用户愿意使用我们的APP。所以希望R&D可以下载各种报表，然后用excel进行关联，做一些简单的分析。

　　当然，我在这段时间犯了很多新手犯的错误，比如相关性不代表因果关系，比如极值的影响，比如样本数量不符合置信水平。

　　年轻人不知道天有多高，但我还是很享受。你需要对数据分析充满好奇。

　　我记得 15 月初，我的老板给了我一个任务，要从各地医院采集数据。看到网上医院有几万家，我又要哭了，复制粘贴也不能了。所以我寻求帮助以了解爬行动物是多么好的东西。

　　当时水平不够用Python+Scrapy，找了个爬虫工具优采云。然后跟着教程，顺便学习一下Html+CSS的网页结构。

　　加上两天的班次，终于拿到数据了。

　　我又哭了，没有感动。

　　所有这些乱七八糟的数据。不仅有错位、乱码、空格，还有重名。什么上海第一医院，上海第一医院，上海第一人民医院，上海第一医院。你在同一家医院给我放了四个在线！！更不用说分支，地址不匹配等等。

　　后来才知道这一步叫做数据清洗。继续使用excel函数来组织。我一直信奉的规则是：如果可以使用简单、可重复使用的方法，就不要重复操作。我坚信总会有一个省时的解决方案。在此期间，Excel水平得到了快速提升。另外，我也养成了随时保持微笑的好习惯。

　　虽然爬虫从学习到成功花了很多时间。但是比起从网上复制，效率要高很多。

　　大约在同一时期，我也学习了网站。

　　我们的产品是APP+Web框架，很*敏*感*词*和活动都是通过网页来实现的。当时用的是百度统计。系统学习漏斗转化、访问路径、跳出率、退出率等。

　　那时可以快速实现对各种活动的分析，比如活动期间的流量、用户的转化率等，可以快速获得反馈分析，从而可以对运营产生直接的了解后续活动纳入分析，百度统计相关应用也推广至运营部。

　　随着分析的深入，我对分析的数据要求也更高了。例如，什么样的用户更有可能参与活动？用户流失的原因是什么？

　　无论是下载报告还是网页统计，当时都很难做到。长期以来，只能用粗略的描述性统计，无法定位到具体的人。

　　数据分析的很多技能后天可以磨练，但我认为一个好的数据分析师会好奇，会问问题，会思考问题，会解决问题。不为分析而分析。

　　随着公司业务线的扩展，用户数量不断增加。我越来越难以与Excel进行关联，效率也呈几何级数下降。 2015年8月，我再问研发老板，他对我说：如果你要给你开一个数据库权限，你自己查一下。

　　我：我不懂 SQL。

　　研发：没关系，简单易学。

　　我：好的，好的。

　　我心里好幸福，不用再求你了！

　　一个月后，各部门的数据需求没有经过研发，而是堆到了我这里。显然让我使用SQL是一个有预谋的大计划。不过还是很感谢接触SQL，让我能访问的数据成几何级数增长。

　　当时还有一个任务挑战。我需要为用户运营建立一个数据系统，包括留存、活跃度、回报和分层指标。我在网上查操作指标的应用和解释，同时查SQL的执行情况。

　　这是我第一次接触、了解和建立以业务为中心的数据系统。

　　当时我们在运营，很长一段时间内，推送、短信、营销都是满满当当的。所有的脑子都推给用户，没有细分。指标建立后，我们部门开始尝试用自己的数据系统进行操作。

　　举两个最简单的例子：比如你最近打开了我们的APP，那么我们就不会推送你最新的活动短信，因为我们默认在APP里是可以看到的。

　　再举个例子，如果一个用户使用了很长时间的APP，我们称他为忠实用户，然后突然几个星期不使用它，那么我们会找出用户，打电话问他为什么他不习惯，并试着给他回电话。

　　此后，我特意衡量了各种运营效果，比如活动人均成本、短信人均效果成本、用户价值周期等。并继续优化。

　　用数据建立指标，对业务最直观的感受就是有据可循，分析运营可以有针对性。

　　随着数据的增多，数据报表的日常维护成为了最耗时的工作。虽然我们当时用的是Presto+Airpal的数据平台，但不管是各个业务线还是APP的基础数据，我和我部门花在组织上的时间越来越多，分析的时间越来越少，更别说落地实施了.

　　此后，BI 被合乎逻辑地引入。在此之前，我不知道什么是 BI。

　　（传说，当时了解之后就被BI说服了）

　　BI 的学习曲线不是那么陡峭。为了自动化运营数据上报（还是为了省时省力），要求研发（一顿饭）单独开一个服务器进行私有化部署，连接数据库。将所有报告要求迁移到服务器大约需要一个月的时间。

　　甜。

　　大量的工作被简化或消除：它可以监控任何推送和短信的效果，市场销售分析可以定位人员，并及时了解业务线的波动。

　　只能分析数据，可以安排足够的人力对数据进行监控和观察。至此，运营数据系统有了基础。

　　2015年下半年，我问了产品（不请客吃饭）部署APP和Web埋点的需求，通过用户的路径了解用户，也弥补了百度统计的不足。埋点的数据不乏，现在也不晚。我们稍后将这些点埋起来。如果更早，可能会有更多的时间进行优化。

　　经过当时的考虑，埋藏的数据会比较多，应该使用Hadoop，虽然从后续的角度来看，Hadoop并不是必须的选择。但它也让我提前了解了大数据（当然，数据本身并不大，具体涉及到技术领域）。

　　使用Hive为埋点数据创建离线脚本进行清理、分区、处理并导入MySQL。可惜业务不使用Hadoop，只是数据管理，所以不太了解。

　　至此，底层数据已经完善。后续处理为上层。

　　今年年初开始学习数据挖掘，向更高层次的数据分析进阶。我先从 R 开始。

　　我没有任何编程基础，下班后基本迷上了研发，所以比较难学。主要是打出书上的句子来学习。把整本书敲下来，对一堆数据的清理、描述性统计的使用、图表的制作有了基本的了解。

　　基础几乎相同，我开始啃算法。我主要是面向应用的，所以大部分算法都不学数学推导。当然，决策树和K聚类都是很容易掌握的东西。

　　想必所有数据挖掘的初学者都会用到Iris Data的数据，然后就是对泰坦尼克号幸存者的分析。如果有，请点赞，哈哈。

　　我不是数据挖掘工程师，我喜欢称自己为剧透。

　　后来参加了一个数据挖掘比赛，是信用欺诈模型，典型的数据不平衡问题。数据完全脱敏，无法从字段中得知业务含义。

　　这与平时使用干净的数据源进行建模完全不同。该模型的召回并不令人满意。最终，没有任何成就。最大的帮助是知道井底有多少只青蛙。

　　后来关注了特征选择和特征处理。好的数据和特征可以在很大程度上决定模型的优劣。之前练习的时候，因为我是算子，所以选的特征都是选出来的，而且关联性很强。实际的特征工程对我来说是一个非常大的缺点。

　　我还在学习数据挖掘的过程中，所以以后有机会再补充。

　　Python的学习还是要归功于研发大哥（这次不请客了）。因为我们业务线的数据比较多，产品变化的需求比较大，很多表结构不美观，常用的SQL需要各种嵌套，应用起来比较麻烦。

　　我不喜欢重复无意义的工作。我希望已经清理了数据，所以我要求它。

　　结果当然是需求延迟。

　　这让我想起了一个经典对话：

　　产品和运营：这很简单

　　研发：你能上吗

　　仔细考虑之后，我肯定会继续改变我对数据清理的需求（我对自己很不自信）。请研发兄弟们多喝咖啡和晚餐。最好自己做。无论如何，数据分析将不得不在未来进行。使用Python，套管UP。

　　下载Python，安装GitLab，开启CI权限，然后规划数据仓库。我自然不知道数据仓库应该是什么样子。无论如何，目标是如何使用我们的运营数据...

　　继续捡书，用Pandas写ETL和数据仓库相关的代码。期间对数据表进行了无数次调整，性能优化，查询优化，如何适应业务扩展，如何防止数据扩展。

　　截断无数次，已经被另一家公司截断了。

　　最后，我很满意并功能化了几个常用的清理流程，以便我将来可以快速重用和构建表格。例如，7 天内的某个业务数据，以及 30 天内的某个业务数据。

　　共同建立数据挖掘通用特征库，利用离线算法预测部分业务响应模型，准确率超过75%。虽然不如大牛，但是作为一个算法模型来操作感觉还是挺酷的。

　　接下来，我们的团队开始利用数据仓库中的数据抽象成用户画像。

　　我在网上看到了很多文章的用户画像，比如用户的年龄、性别、爱好、财务状况等，但我们不是电子商务行业，用户的兴趣实际上并不帮助我们的业务。我只根据自己对业务的理解制定人像标准。

　　比如用经典的RFM框架做标签：一个月没有订单生成，最近生成的订单不那么频繁等等，帮助销售和运营判断用户是需要激励还是发展。

　　说白了，我不知道其他公司的用户画像。甚至更高的级别可能会使用主成分分析或聚类。但我还是坚持从自己的运营角度去分析和提炼。只要对业务有帮助，就是很好的用户画像。幸运的是，肖像的代码是自己完成的。如果以后要改需求，也需要自己改。你不需要请客。

　　我自己对数据分析的理解和深化，都是在我的工作中一步步进行的。我有模仿前辈的经验，也有团队的探索。我不敢说我学到了多少。距离我去年用 MySQL 才一年多。还有很多有趣的数据我想尝试和学习：

　　网站data分析与APP数据分析有哪些异同点；

　　SEO的知识我懂，但是流量没有经过实战测试。真想用Python爬虫+AB测试来获取体重；

　　营销人员非常希望有大预算的运营，通过优化不断降低CPC；

　　Spark 已经是一种趋势，但我还没接触过；

　　您对数据了解得越多，就越觉得它不是一个切入点，更不用说您自己的运营工作了。

　　另外，我也知道自己的不足和局限。比如不知道大公司的数据产品是什么样的，比如有没有更好的数据运营案例，非常愿意和大家交流。

0

2021-08-10

seo教程搜索引擎优化入门与进阶第三版

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

我的职位不是数据分析师，属于既做运营、又做数据

0 个评论

发起人