行业实践:解构电商、O2O：挖掘用户的“潜意识”-推荐系统

优采云发布时间: 2022-10-08 18:15

　　“我是你的老师！” 她哼了一声，转过头去

　　×

　　随着人们生活水平的提高，对商品的要求趋于个性化。每个人对产品的喜好都有自己的习惯，把握习惯并养成习惯也是电商平台推广宣传的有效手段。就这样，推荐系统应运而生。

　　推荐，顾名思义，就是根据用户的喜好和行为，推荐能够满足用户需求和需要的产品，从而达到用户购买的目的。广义上，凡是主动向用户推送的产品信息都可以看作是推荐的范畴，具有商业变现能力的产品推荐也称为广告。广告的管理一般由单独的广告系统来处理，下面介绍的推荐主要是指广告以外的产品推荐内容。

　　一、推荐基本信息

　　推荐系统从根本上解决营销产品选择中的决策问题，都需要有一些指标来衡量和评价效果，为后续调整推荐策略的参数和优化推荐系统提供依据。方法。常见的推荐系统指标和搜索比较包括精度、召回率和新颖性。

　　我们来看看推荐系统在电商平台用户侧的常见呈现形式，如下图：

　　推荐使用一般放在预售环节，通过浏览时的推荐来提高用户的购买率，购买后的页面会放置少量页面提示用户增加二次消费的概率。电商是一个全天候的销售平台，但用户在实际消费时会有不同的购买场景。不同的购买场景对推荐有不同的要求。

　　为了使推荐系统实现差异化的场景推荐，需要根据不同的场景获取不同的数据进行分析处理。推荐系统的底层数据源，和搜索一样，来自各个业务系统，而推荐系统本身并不产生业务数据。推荐系统主要分析人与物的关系，所以数据围绕这两点展开。

　　人们指的是用户自己的信息。包括用户自己的基本信息，如用户名、*敏*感*词*、地址、采集夹等。还有消费信息，如订单信息、会员信息等，这些信息可以初步构建用户在系统中的实体，让推荐系统通过这些信息分析出人的“特征”。

　　项目是商品信息。商品数据主要是商品的基本信息和促销信息。除了第一次，埋点的数据还需要结合以上内容进行统计分析。埋点信息包括访问数据、点击数据等。

　　很多情况下，一些新用户和上架的新产品没有历史数据可以追溯，从而无法提取特征，也就是我们常说的“冷启动”。冷启动的问题也会影响使用哪种推荐策略，因为不同的推荐策略可能对数据量有不同的要求。

　　一些策略依赖于大量数据进行分析。这时候如果不处理冷启动问题就无法积累数据。为了处理冷启动的问题，人们也找到了一些方法。其根本思想是通过变形或变换获得特殊数据源，解决无数据问题。

　　第一种方法提供了相对稳定的数据过滤结果，最常见的例子是畅销榜。该方法假设所有用户都属于一个集合，该集合下最受关注的产品是热销产品。

　　考虑到人群的从众心理，在新用户初期推荐热销产品其实是一种比较安全的方式。事实证明，在冷启动阶段，新用户对热销产品的购买力更大，而老用户也会更有动力。考虑长尾建议。数据采集到一定程度后，将推荐数据转化为更精细的个性化推荐内容。很多平台的发现页面在前期都是采用这种方式来处理不完整的数据。

　　二是利用用户在早期注册时留下的信息进行判断。目前很多平台会在初期让用户填写一些个人信息和爱好，这种方式在音乐或阅读平台上会更多地使用。

　　根据用户填写的信息，初步构建特征以匹配产品推荐。除了用户自己在平台填写的信息外，目前大部分使用第三方登录，如微信、支付宝等。通过第三方登录，还可以导入部分用户行为数据辅助分析用户授权条件下的用户特征。

　　但是由于信息的缺乏，这种推荐会导致粒度很粗，可能会导致大量用户看到完全相同的产品，但实际上他们自己的群体还是有些不同的。

　　此外，上述两种情况也可以结合起来获取信息。例如，提供热销产品等特定品类供用户选择偏好，根据用户选择匹配同类产品数据。这样可以更好地为冷启动提供相对准确的推荐数据。

　　但是这种方式对前期提供的产品的采集有一定的要求。不可能从单一类别中获得太多产品。平台应提供更多类别的选项，以便后续分析更准确。

　　以上是新用户冷启动的数据获取方案。除了用户的冷启动，还有产品的冷启动。对于新产品，我们缺乏产品购买者的数据特征，所以需要通过冷启动来获取关联数据，如下图所示。获取数据的思路与用户的思路基本相似。最基本的方式是提供新产品等特殊标签。通过标签增加权重，达到了展示推荐的目的。

　　另外，由于产品信息是由内部运营人员录入的，我们可以通过人为的方式获取更多的产品基础信息。推荐系统可以通过关键词或标签获取产品的关键信息，计算新产品与旧产品的相似度进行推荐。

　　同时，我们也可以通过获取第三方的数据来判断用户的情况，比如手机安装时从已安装的应用中获取的性别、年龄、爱好等信息。综上所述，冷启动主要通过三个方向获取数据：引导用户自行填写、操作手册分类、第三方获取。

　　2.推荐策略的“演进”

　　确定用户喜欢推荐的产品，就是建立人和产品之间的关系。上述所有元数据都需要根据推荐策略进行关联。推荐策略的发展已经从简单的概率分析扩展到现在更流行的深度学习。我们提到推荐的核心是建立人和产品之间的关系。那些彼此靠近的被认为是更相关的，而那些更远的被认为是不太相关的。

　　人与商品的关系还包括人与人、商品与商品的关系，从而构建关系图。比如我们常说的用户画像，就是设置人与人之间关系的基础数据。根据人和商品，我们可以建立一个二维坐标。

　　根据坐标的距离，判断相关程度，生成推荐商品信息。由于推荐系统比一般电商业务系统对算法的要求更高，这里我们将从产品维度介绍推荐策略和算法的一些情况。如果你想更多地了解一些算法，你可以自己研究它们。

　　如上所述，推荐策略是判断人与商品之间的各种关系。关系越密切，匹配度越高。那么如何判断关系的远近呢？对于这个核心问题，推荐系统一直在发展和进化，随着技术的进步，人们的想法也越来越智能。

　　在没有系统推荐的情况下，推荐系统更多的是手动配置商品的过程。通过手动设置固定产品进行推荐。目前，一些不具备推荐算法能力的平台仍在使用此类方法。这种方法虽然可以实现产品推荐，但效率和效果无法恭维，于是出现了基于内容的推荐策略。

　　基于内容推荐的思想是对商品、内容、人等所有基础实体进行标注。系统通过标记对不同的产品属性进行分类。当用户进行购买时，系统会根据购买的商品判断出具有相同或相似属性的商品集合，然后通过去重、过滤等规则完成最终的推荐列表。

　　基于内容的推荐实际上是判断商品与商品之间的固定关系。让我们举个例子来看看策略是如何处理的。假设平台上有图书产品库（包括产品A、B、C三个产品），我们根据图书的相关信息为所有图书制定标签特征，包括但不限于书名关键词、图书作者、图书分类、图书定价、图书关键词等。通过标签排序，我们看到三款产品的特征集分别为：

　　如果用户购买了产品B，则可以在购买完成后向用户推荐产品A，因为产品A和产品B具有相同或相似的属性（包括书名关键词、作者、类别）。并且产品C与产品B相距甚远，因此不推荐。

　　这里的判断规则一般是通过加权的方式判断多个属性是否与购买产品的特征相似或相同，加权和去重的规则与搜索中使用的规则类似。特别是推荐策略的权重，还需要考虑词频的因素。常用的概念是TF-IDF（termfrequency-inverse document frequency）。

　　TF是词频，即关键词在当前文本中出现的次数，包括所有特征属性。IDF是逆文本频率指数，指的是所有文本属性中出现次数的倒数。计算方法为TF X IDF。该指标表明我们认为当前文本中出现的高频词具有高权重，但如果关键词在所有文档中频繁出现，则认为该词没有特殊含义。因此，重量非常轻。

　　如果上表中的经济词只在当前文本特征中出现次数高，则属于高权重。如果它在所有语料库文本中出现多次，则认为它不应该代表一个特定的含义，而是一个普遍的词，应该减少权重。

　　基于内容的过滤规则比较简单，在初期构建时可以快速实现推荐功能的自动化，节省人力。但是，问题也很明显。首先，需要为所有产品构建特征标签，工作量巨大。同时，由于推荐策略的粒度直接关系到要构建的特征数量，会导致推荐产品过于粗略和不准确的问题。如果平台本身没有很多推荐算法能力，可以通过手动配置和基于内容的推荐来获得推荐的基本自动化能力。

　　基于固定的内容是不可能得到更准确的推荐产品的，所以我们可以换个角度来看这个问题。我们将商品与商品之间的固定关系转化为参考人与商品、商品与商品之间的变化关系来构建推荐策略，即根据用户的行为来判断商品之间的关系。

　　用户的行为具有复杂多变的特点，但并不代表没有规则可循。常见的基于用户行为的策略主要分为几种类型：关联规则和协同过滤。

　　关联规则是指通过采集每个用户的购买数据，我们可以得到所有购买过产品A的用户以及这些用户同时购买了哪些其他产品，然后将这些产品组合起来得到一个已购买的产品列表同时。种类。基于产品列表，最终实现去重、去除低相关产品等行为，输出推荐产品列表。关联规则的核心策略是诊断关联度进行处理。关联度有两个常用指标：支持度和置信度。

　　计算公式相关性=支持度*置信度。让我们举个例子来看看算法是如何工作的。Alice 购买了 item1，此时我们要计算 item5 是否应该被推荐。根据公式，我们计算支持度和置信度。支持度为support=2/4，置信度为confidence=2/2。需要注意的是，爱丽丝本人应该被排除在计算之外。这样，我们可以得到support=0.5，confidence=1，所以item5与item1的相关度为0.5*1=0.5。

　　广告如何进行用户访谈和用户研究？

　　×

　　从上面的例子中，我们可以通过相关性看到人们在推荐购买时最常用的组合。非常适合一些单品类的商品结构，策略本身的逻辑并不复杂，技术要求也不是特别高。但是从计算量上看，需要遍历所有的商品才能得到所有的指标。对于离线数据挖掘成本来说有点太大了。

　　显然，作为主要算法的关联规则有些不一致，那么我们需要寻找一种更高效、成本更低的算法作为主要推荐算法。协同过滤是目前主流的推荐算法。协同过滤的主要原理是利用群体的协同智慧，旨在通过群体的偏好判断来确定个体的特征和条件。该组可以是用户组，也可以是商品组。

　　协同过滤有几个基本假设：

　　协同过滤的处理主要包括评价和组搜索两部分。我们来看看协同过滤的处理流程。如下所示：

　　获取所有用户数据信息，包括自己填写的用户信息、评价、消费记录等信息。对于新用户，可以通过上面提到的冷启动方式获取数据。同时，还要对用户数据进行一些基本的预处理。

　　主要的预处理是降噪和归一化。降噪主要是去除一些异常数据，比如用户误操作、未付订单等。归一化的目的是为了保证所有用户信息在进行推荐计算时不会受到极值的影响而产生过大的偏差。

　　例如，订单数量远大于收款数量。这些信息需要处理到一个相对合理的范围内。一般来说，归一化的数据分布会变成[0,1]的范围。常用的归一化方法有很多，比如对数归一化、指数归一化等，归一化的概念有点类似于地图的比例尺。目的是在保证相对关系的同时，将所有样本缩放到一定范围内进行计算。

　　数据处理后，推荐系统会根据信息对用户或产品进行评估和评分。这主要是根据已知用户或商品集合的信息来判断与当前用户或商品的相似度。推荐算法根据不同的相似度得到每个集合的得分，并根据计算出的得分判断与当前用户或产品相邻的群组。推荐结果的输出是通过将相邻组与当前产品或用户进行比较来完成的。

　　相似度的计算也是推荐算法的核心。相似度主要是指当前组与已知组的接近程度。邻近算法也随着技术逐渐发展。这里我们以kNN算法为例来看看邻接算法的原理。

　　kNN（全称k-NearestNei*敏*感*词*or Knei*敏*感*词*or algorithm）意思是k个最近邻，意思是每个样本可以用它最近的k个邻居来表示。该策略的思想是通过指定一个数量范围K来确定最相似的K个产品的共同特征，并且认为查询的产品或者用户本身也有这个特征。简单地说，就是你和你附近的K个最近的群体有相同的特征。

　　从下图中我们可以看出，首先，我们将测量所有样本数据与需要比较的样本之间的距离，并根据测量的距离从近到远生成一个列表。将所有样本进行比较后，从当前列表中选出K个样本，判断当前样本中大部分商品的属性特征，并将属性特征分配给被比较的商品，完成推荐结果的输出。下面我们通过图来了解一下邻近算法的运行原理。

　　当为范围K选择C1值时，认为当前比较样本的特征应该是圆形，因为圆形在范围内占据了大部分。当我们将范围 K 的值调整到 C2 时，我们发现对比样本的特征变成了正方形。所以kNN的邻近算法会因为K的取值范围的选择而产生巨大的结果变化。如下图

　　虽然目前主流的协同过滤仍然使用计算相似度进行推荐，但策略已经发生了变化。按维度分为基于用户的维度和基于产品的维度。User-Based：行相似度是指以用户为参考，判断与当前用户相似的用户群的偏好，从而得到当前用户没有购买过的相似用户群所收录的产品进行推荐。

　　如果我们把用户和产品的关系放在一个矩阵中，按照用户维度也可以看成行相似度。如下表所示，当用户A购买时，我们通过查询对比发现用户A和用户C是相似的群体，所以我们根据用户C的特点向用户A推荐产品D。

　　给挖掘机打广告是什么感觉？

　　×

　　Item-Based（列相似度）也称为基于item的维度，通常指人以外的实体。项目代表电子商务平台上的商品维度，而新闻和音乐平台代表其他实体。与基于用户的维度不同，基于商品的维度以商品（以下简称商品）为参考对象进行判断，找到与当前商品偏好相似的商品，然后根据推荐相似商品用户的历史成功。

　　我们也用上面的关系矩阵来看看基于商品维度的处理方式。购买产品 A 的用户与购买产品 D 的人非常相似，所以当用户购买产品 A 时，我们可以向用户推荐产品 D。因此，也称为基于产品维度的列相似度。

　　两个维度的算法各有优缺点，衡量和使用的标准主要是选择参考对象少的维度。例如，与庞大的用户群相比，电商平台的商品相对固定，商品之间的关系变化较少，因此以商品为参考可以大大降低计算的量级和复杂性。相反，在新闻类中，用户相对于内容更稳定，更方便用户作为参考。

　　同时，与基于用户维度的算法相比，基于商品维度的算法的结果集更加稳定，但丰富度相对较低。所以如何选择取决于推荐平台的实际业务需求。更多的时候可以使用混合算法，即从多个算法中按照一定的比例得到乘积，进行去重、加权、排序。

　　一般来说，使用协同过滤算法时有几个技巧：

　　这里简单介绍几种算法的公式，具体算法细节可以百度。在产品层面了解就足够了。

　　Cosine-basedSimilarity（余弦相似度）：常用来计算文档数据的相似度。

　　Pearson Correlation Similarity：计算两个距离较远的变量的相似度。

　　AdjustedCosine Similarity：修正余弦相似度算法中对绝对值不敏感的部分。

　　3.推荐系统架构

　　推荐系统根据处理流程的划分也有若干层。从效果来看，业务特征加上特殊特征的精细度决定了效果的最终上限。结构如下

　　广告研究网——全新优质行业研究报告查询【洞察研究报告】

　　×

　　干货内容:如何利用百度文库进行网络营销

　　如何使用百度文库进行网络营销

　　作为互联网从业者，我们都知道，只要有数据下载的需求，百度文库或多或少都会参与排名，而且都是前两页，不仅百度自家产品的权重相对高，对于用户来说，他们对百度文库也有一定的信任度，百度文库的数据存储和下载都非常方便。如果我们能用好百度文库，那么文库会给我们的网站带来相当客观的流量。那么，如何使用百度文库进行推广呢？接下来，快易为大家介绍一下百度文库推广技巧。

　　第一步：判断公司所在行业是否有数据下载需求

　　如何确定？有最简单的方法：去百度搜索你所在行业的产品词或服务词。如果百度文库、豆丁网、道客巴巴等参与排名，那么用户肯定有数据下载需求。

　　比如我最近申请了几个百度账号，都是新的，所以需要升级。虽然对别人了解不多，但是对于SEO搜索引擎优化和WEB前端开发我还是很了解的，而且这类内容只要用户有兴趣，肯定会下载保存的。

　　快易推 WX 77377585

　　第二步：将百度文库的流量引到自己的网站

　　百度文库最重要的就是为网站吸引流量，这要怎么做呢？

　　如果我们直接做硬性推广，在文档中插入网址或者留下QQ等*敏*感*词*，很大程度上是不会通过的，而且目前用户对链接广告非常反感，所以我们最好不要这样做。最好的方法是引导用户搜索品牌词到网站。比如上面第一步提到的用户需要下载数据，那么我们可以在文章的末尾加上：“某XX网站提供XX数据的下载”，准确的用户需要它，当他们看到这个时，肯定会去搜索和下载。

　　第三步：百度文库数据上传成功技巧

　　1.写标题

　　文件标题一定要完整，不能有明显的广告嫌疑，尤其是刚刚申请的账号，如果标题中含有“某某多少钱”“什么东西”等宣传词那种某某就好”，一般都会被刷掉。请勿尝试保留任何链接和电话联系信息，只会浪费您的时间，如果失败则必须重新提交。

　　2.文档内容

　　百度文库中的信息对于排版非常重要。如果你提交的文档布局凌乱，字体颜色很多，这样的文章你自己网站就很难看，更别说百度文库了。，根本不会通过。文件的长度不需要太长，2-4页就行，尽量简洁干练。文章最好是原创或者伪原创，千万不要在百度知道或者百度体验中复制。

　　三、提交文件时的注意事项

　　在百度文库上传文档时，会提示填写“文档介绍”、“类别”、“关键词设置”等选项，都不需要填写，写一个即可标题。

　　任何一种推广方式，说起来容易做起来难，网络上存在的推广体验是无穷无尽的。如果你不真正尝试，你永远不会明白其中的奥秘和乐趣。

0

2022-10-08

根据关键词文章采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

行业实践:解构电商、O2O：挖掘用户的“潜意识”-推荐系统

0 个评论

发起人

AI时代内容工厂

行业实践:解构电商、O2O：挖掘用户的“潜意识”-推荐系统

0 个评论

发起人

相关问题