根据关键词文章采集系统(个性化精准推送的第一步:建立用户画像,实现个性化推荐)
优采云 发布时间: 2022-03-14 16:11根据关键词文章采集系统(个性化精准推送的第一步:建立用户画像,实现个性化推荐)
通过前六篇文章的介绍,大家应该对推送系统的整体运行流程有了一个清晰的认识。在本文开头,我们将从数据和操作层面对推送进行更深入的介绍,力求将推送的效果发挥到极致,与大家一起将推送系统研究到极致。
如果想通过推送来达到操作目的,首先是让用户点击推送消息,进入目标页面,才有机会达到操作目的。因此,推送点击率成为众多运营商观察到的数据指标之一。
用户对推送内容是否感兴趣,对点击率影响很大。近年来,各种信息平台/电商网站声称通过精准推荐、消息聚合和消息分发,实现基于大数据算法的个性化推荐,从而实现内容点击率的大幅提升。
精准+大数据算法似乎是目前的趋势,但对于很多产品经理来说,机器学习和大数据算法听起来很难实现。
事实上,个性化推荐并没有想象中的那么难。本文将为您介绍个性化精准推送的第一步:建立用户画像。当然我们主要从push入手,推荐算法就不深入挖掘了。
为什么要构建用户角色
事实上,多种推荐算法也可以用于精准推送,比如基于用户的协同推荐、基于内容的协同推荐等推荐方法,但以上方法大多是基于相似度的,适用范围多为单一功能,难以实现。实现全网功能之间的联动。用户画像的构建不仅可以满足基于分析的用户推荐,还可以用于全网的所有功能。
建立用户画像确实是一个多任务的任务,不仅可以做精准推送、精准推荐、精准营销,还可以做网站用户属性分析、用户行为分析、商业转化分析同时,网站分享了一组用户画像,可以对用户有一个统一的了解,可以对各个应用渠道的数据进行补充和修正。
大体思路如下:
从图中可以看出,用户画像的使用方式有很多种,但都是应用层面的东西。在这里,我们主要分析从用户画像构建到精准推送的过程。下面开始介绍如何构建网站的用户画像库。
用户画像构建思路
建立用户画像的部分介绍文章分为四个层次,第四层次是预测模型,但是在精准推送中使用预测的需求较少,预测算法会更上一层楼算法,需要大量的数据演算,本次不讨论,所以暂时分为三层。
从图中可以看出,第一层用户画像主要是原创数据库,主要包括后续分析所需的所有原创数据。也正是通过对大量数据的分析和处理,才能提炼成用户画像,以备后用。
所以这个级别的 关键词 是:很多,数据。第二层是在第一层的原创数据的基础上,经过计算、提炼、规划成一系列可以通过算法形成用户画像的通用标签。这种标签的存在类似于一个矩阵或多个类别的集合。
当业务需要时,可以增加此类标签的数量和维度,以满足业务需求。所以关键词的第二层是:generic,tag。
至于第三层,我们可以通过对标签的聚合、提炼、建模,形成用户的多张“面孔”,并应用到多个场景中。例如:小明听音乐时的肖像是摇滚、年轻、流行、活泼;而在学习的时候,他的画像是认真的、专心的、敬业的、经济的等等。
可以从用户的不同角度应用于各种业务需求,达到精准化。所以第三层的关键词就是:聚合、应用。
建立原创数据库
从第一层的原创数据库构建开始,我们需要在这一层获取尽可能多的原创数据。由于以下所有应用场景都依赖于对原创数据的计算、分析和建模,因此需要构建原创数据库。更全面地考虑,当然原创数据与数据存储、采集难度和成本密切相关。
下图为主要数据维度,大家可以根据实际情况进行选择。
一般来说,例如:电子商务网站。对用户的分析比较深入细致,需要对用户的购买力进行分析,所以或许可以在用户信息部分下功夫。虽然如今的用户信息泛滥成灾,但仍然不建议大家通过异常渠道获取用户信息,即使这些数据的商业价值非常高。
第二种数据,用户行为数据,是必须的。用户行为数据可以更好地分析用户需求,更容易获取用户兴趣。因此,大多数推荐算法都会以用户行为为原创数据源。用户环境信息等数据可作为数据分析的重要参考资料,可采集根据实际情况进行存储。
下面详细介绍如何采集用户行为数据。采集的用途多用于计算用户的偏好,分析用户的转化行为。通过用户行为来计算用户的标签,本质上就是利用用户感兴趣的内容来给予标签的过程。
主要思想如下:
该方法的核心思想是将用户的每一次操作、对象和操作时间记录在网站中,形成用户行为表,从而构建用户行为的原创数据。
具体操作如下:
记录用户浏览/收听/观看的每一个内容、浏览时间、与内容的交互(点击、滑动)、内容的关键指标(采集、分享、商业化等),那么每个用户都会有一个用户行为记录表,记录的维度可以是数值,可以是“是或否”,也可以是时间,视具体需要而定。
如下图所示: 是我在实际设计过程中定义的用户行为数据存储格式,主要体现用户什么时间看什么、做什么。
原创数据就是根据这张表形成的。当然,正如我前面提到的,这只是原创数据中的行为数据部分。设计时可根据实际情况扩充数据表。
通过记录这些用户行为的原创数据,我们可以获得以下信息:用户的访问习惯(频率、时间、时长)、用户感兴趣的内容、用户对内容的兴趣。
事实上,仅仅从这些,我们就可以粗略地推算出用户的基本偏好。但是,这种方法有一个缺陷。当用户没有产生足够的行为时,我们无法获取他们的行为信息,自然也就无法进行后续分析。此时,可以以上面介绍的用户信息、用户环境等数据为基础,通过用户协同算法,找到与用户喜好相近的内容。
创建用户标签库
根据上面得到的用户行为原创数据,我们得到了一张庞大的行为记录表。但是为了使用这张表的内容,我们需要让用户行为更加具体,也就是我们需要建立用户画像。
用户画像可以是一段描述,也可以是各种属性的集合,也可以是用于直观解释的标签。根据以上介绍,用户画像可用于用户分析、商业模式分析、精准个性化推荐系统。本文主要介绍精准推送,所以只选择能够可视化图片的用户标签。
实际上,用户标签并不等同于用户画像,但用户标签是用户画像的一种直观呈现,是一种较好且常用的使用方式。
搭建用户标签库其实比较简单,因为我们在上述采集用户行为过程中已经下载了用户喜欢的内容采集,所以基础标签可以直接使用内容标签。也就是说,用他们喜欢的内容标记用户。
(1)内容标记
首先要做的是给内容打标签,根据内容定性地制定一系列的标签。这些标签可以是描述性标签、具体标签,甚至是数字或数值范围。此内容的标签必须是通用的,即适用于您的 采集 用户查看的所有内容。
比如,如果是电商类网站,这一系列标签可以是产品类型、产品价格区间、产品产地、产品品牌、产品特性等。如果是地产类网站,可以是房子的面积、价格、面积、图案、形状等。
此步骤完成后,此时可以对用户行为表中的内容进行标记,相当于用户行为表记录了用户对一组标签的兴趣。
标记内容时,需要注意的是,标记的值需要有统一的范围,否则后期无法使用和比较。例如:上表中,“区域”标签的取值范围只能是某个行政区域,并且每条房源信息都有一个带有该区域值的标签,“区域”的标签值不能出现在该区域之外range 内容,如:社区名称等。
以上图为例,房子ID-1001的标签是:福田区,6万单价,2房,40-50平,...
(2)用户标签
第二步是将内容标签分配给用户。在这个过程中,需要研究用户对内容的偏好。用户喜欢的内容被视为用户的偏好标签。
在用户行为记录表中,我们记录的用户的行为此时起到了重要的作用。用户的浏览(时长/频率)、点击、分享/采集/关注等商业化或关键信息都不同程度地代表了用户对该内容的偏好。
这时,我们可以使用给这些行为分配权重分数,通过分数的计算得到一组用户偏好的标签。根据行为的重要性,给出分数。没有规定的价值可以推荐给所有人。您可以通过不断的尝试和调整,找到最适合您的算法的权重值。同时,内容具有时间敏感性或与时间的关系更为重要,时间也可以作为权重参数之一。下图是为行为分配值的过程的示例。
在完成为关键行为分配权重分数后,就可以开始计算了。首先,我们将用户浏览(收听、观看)的所有内容按照上面的内容标注方法分解成标签,并转换用户行为表中的关键行为。对应的分数。
结果如下表:
计算标签和分数的总和,即每个标签的值可以得到分数的总和,例如:商品A的标签“商品产地”的值是“福建、广东、云南、浙江, 河北”等,通过分数计算,找到分数最高的值作为用户标签的值。
例如,计算“福建”得分最高,即用户喜欢“产品原产地为福建”的产品。
通过上面的计算,每个系列的标签都可以得到得分最高的值。这时候根据自己的需要,可以取最高的值作为标签值。当然,你也可以将分数从高到低排序,取前几位作为标签。大批。通过以上计算,用户将获得一组/多组标签和对应的值。
如下所示:
建立用户画像库
我们通过上述方式为用户获取了一组组标签,但是用户的解剖结构不够立体。用户画像是三维标签库的集合。这时,我们需要像矩阵和集合一样组成一个三维标签组。然后,通过各种维度对用户进行组合和排列,形成用户画像。
这是数据表中用户画像的形式。但是网站千万级用户都有自己的画像库,所以在构建用户画像时,需要考虑数据存储。这种大量的数据计算会持续给数据的存储和使用带来压力,所以在搭建的时候一定要和研发工程师商量。
用户画像可以水平和垂直扩展。随着基础数据的获取越来越多,可以扩展的维度也越来越多。同时,通过标签的组合、聚合和扩展,可以形成二级标签、三级标签等高级标签,并应用于不同的场景。
下面将为您提供一个如何使用更改标签的示例。
应用层用户标签
当我们来到应用层时,我们可以充分利用标签的各种用途。首先,我们可以通过标签过滤掉用户,几个特定的标签就可以勾画出特定范围的用户。
例如:我可以从用户池中筛选出“年轻、单身、使用iPhone、喜欢xxx”的用户,可以对这些用户进行有针对性的推荐和营销。同时,除了勾画用户,我们还可以结合标签。如:标签A=标签a+标签b-标签c。
以上述基本用户画像中的信息为例:首次购房者=年龄22~35岁+购房模式为2房+购房单价小于X万-有小孩+...等等。当然,这只是一个例子。叠加或排除的组合可以形成更高阶的标签并应用于各个应用层。
例如,电商网站经常使用各种信息来判断用户的购买力、喜欢的产品、购物习惯和购物频率。这些可以基于基本标签的聚合来计算。不同的组合让标签更丰富,更贴近实际应用场景,但不会干扰原创标签库和用户原创数据的存储和使用。
总结
本文主要介绍精准推送第一步,建立用户画像:
用户画像构建可用于精准推荐、精准推送、精准营销、数据分析等。用户画像构建分为三层,即原创数据库、画像标签库、画像应用层;原创数据的获取可以是用户信息、用户行为、用户环境等相关信息;通过分析用户行为,可以根据用户对内容的偏好使用内容来标记用户;用户画像是可以横向和纵向扩展的巨大标签组;可以灵活使用各种高级标签的组合、聚合和扩展。
下一篇我会介绍一些相似度算法来计算用户最感兴趣的内容,从而实现精准的个性化推送,敬请期待!