话题：算法自动采集列表 - 自动文章采集器-优采云官网

使用机器学习算法构建一个简单的“微博指数”

采集交流 • 优采云发表了文章 • 0 个评论 • 165 次浏览 • 2020-08-26 17:36 • 来自相关话题

　　使用机器学习算法构建一个简单的“微博指数”
　　欢迎你们抵达腾讯云技术社区，获取更多腾讯海量技术实践干货哦~
　　作者：林浩威
　　前言
　　随着人工智能的大热，越来越多的小伙伴们开始涉足到机器学习的大潮中。作为其中的一员，我对此也是极有兴趣的。当然我更感兴趣的，是如何借助那些有趣的算法，来实现脑海里各类奇奇怪怪的点子。写这篇文章的抓手，是我在某日看完腾讯指数的推送后，突发奇想，想自己实现类似这样的一个东西，感觉挺好玩的。然后就在上周末，利用了一些空余时间，写了一个简单的舆情监控系统。
　　思路
　　基于机器学习的舆情监控，这样的一个看法，其实可以有很大的想像空间，可以做好多有意思的事情。比如可以关注你喜欢的名星或影片的口碑情况，或者了解你所关注股票的舆论变化，甚至预测其未来的迈向等等。但我决定先从最简单的反例入手：就是从新浪微博中，识别出关于腾讯的正面或负面的新闻。本文的阐述也将围绕这个场景展开，不会涉及太多复杂难懂的东西，可以说是很简单的一个东西，请放心阅读。
　　技术上的实现，主要是用sklearn对采集到的微博文本做分类训练，关于sklearn就不需要介绍了，很有名的一个python机器学习工具，如果想详尽地了解可以移步它的官网：。
　　下面是我们接下来须要做的所有工作：
　　
　　环境
　　机器：mac
　　语言：python
　　第三方库：sklearn、jieba、pyquery 等
　　数据采集
　　数据采集是对我来说是最好做的一步，其实就是写爬虫从各大网站采集大量的信息，存上去，以便我们后续剖析处理。如下图：
　　
　　因为这只是一个试验性的兴趣项目，没办法花太多时间投入，所以我此次只准备从微博的搜索结果中，取1000条数据来剖析。当然若果有可能的话，数据越多越好，训练下来的模型就越确切。
　　采集的页面是百度的微博搜索结果页：腾讯&pn=0&tn=baiduwb&ie=utf-8&rtt=2
　　用python对该页面逐页抓取，然后用pyquery模块对抓取到的页面进行解析，得到一条条的微博文本。下面贴下这个页面的解析代码：
　　
　　人工处理
　　这一步是最悲催也是最花时间的一步，我们须要把采集到的数据，一条条精确地人工分类整理好，才能给后续的算法训练使用。如果你的场景在网上能找到现成的训练数据集，那么恭喜你已然节约了大把时间，但大多数情况还得自己来，所有脏活累活都在这了。而且人工分类的准确性，也决定了训练下来的模型的准确性，所以这一步的工作也是至关重要的。
　　我们的目标是把消息分为“正面”、“负面”和“中性”三个类别。首先我们要先给这三个类别下一个明晰的定义，这样在分类的时侯才不会苦恼。我个人给它们下的定义是：
　　正面：有利的新闻、积极正面的用户言论；
　　负面：不利的新闻、消极背面的用户言论；
　　中性：客观提到的新闻、不带爱情色调的用户言论。
　　按照前面的标准，我们把采集到的1000条微博一一分类标记好。
　　文本预处理
　　采集过来的微博文本，带有好多无效的信息，在开始训练之前，我们须要对这种文本做预处理，并保存为sklearn能接收的数据，主要工作包括：
　　1、去杂质，包括表情符号、特殊符号、短链接等无效信息，这里用正则过滤掉即可，不再详尽描述；
　　2、保存为文本文件，因为sklearn要求训练数据以特定的格式储存在本地目录，所以我们须要用脚本对原数据进行处理，目录格式如下：
　　
　　
　　train：存放待训练的数据，子目录名称为分类名，子目录下储存训练文本文件，文件名随便，内容为单条微博文本；
　　test：存放带测试的数据，子目录名称随便，在子目录下储存测试文本文件。
　　建议训练集和测试集按8:2的比列界定，用python手动生成以上的本地文件。
　　3、分词，因为微博的数据大部分都是英文，所以推荐用jieba动词，对英文的支持比较给力，效果也挺好。支持自定义辞典，支持返回指定动词的不定式结果，可以消除一些停用词和语气助词等。使用上去也很简单，这里不详尽介绍，有须要可以访问它的github地址：
　　算法选择
　　准备好训练数据然后，我们就可以开始训练了，为此我们须要选择一个合适的分类算法。但机器学习算法那么多，如果一个个去测试对比，将耗费我们不少精力。幸好sklearn早已考虑到了这个问题，并提供了一个算法选择方案。通过把多个算法的运行结果进行图形化对比，可以太直观的看见那个算法比较合适。
　　这个是官方提供的测试代码：
　　把这个官方案例的数据输入部份替换成自己的即可。结果如下图：
　　
　　综合运算效率和得分情况，我选择了LinearSVC算法（SVM）来作为我的训练算法。
　　训练
　　文本分类的训练主要有以下4个步骤：
　　
　　这4个步骤 sklearn都已封装了相应的方式，所以使用上去十分便捷。参考如下代码：
　　
　　注：以上代码为了便捷展示，把模块引入也放在方式内部了，仅作参考
　　应用
　　最后就是对训练好的模型进行测试和应用。
　　通过已有的模型，对新的数据进行预测，代码如下：
　　
　　注：本代码只是展示用，仅作参考
　　打印下来的部份结果见右图：
　　
　　经统计，预测的准确率为95%，该模型算出的当日腾讯相关的舆情如下：
　　
　　结语
　　本文只是记录下我这三天的一些看法和试验过程，没有涉及太多代码实现或则其他深奥的算法，相信不难读懂。如果有人感兴趣的话，后面我可以把源码整理完发布下来。
　　感谢阅读！查看全部

　　使用机器学习算法构建一个简单的“微博指数”
　　欢迎你们抵达腾讯云技术社区，获取更多腾讯海量技术实践干货哦~
　　作者：林浩威
　　前言
　　随着人工智能的大热，越来越多的小伙伴们开始涉足到机器学习的大潮中。作为其中的一员，我对此也是极有兴趣的。当然我更感兴趣的，是如何借助那些有趣的算法，来实现脑海里各类奇奇怪怪的点子。写这篇文章的抓手，是我在某日看完腾讯指数的推送后，突发奇想，想自己实现类似这样的一个东西，感觉挺好玩的。然后就在上周末，利用了一些空余时间，写了一个简单的舆情监控系统。
　　思路
　　基于机器学习的舆情监控，这样的一个看法，其实可以有很大的想像空间，可以做好多有意思的事情。比如可以关注你喜欢的名星或影片的口碑情况，或者了解你所关注股票的舆论变化，甚至预测其未来的迈向等等。但我决定先从最简单的反例入手：就是从新浪微博中，识别出关于腾讯的正面或负面的新闻。本文的阐述也将围绕这个场景展开，不会涉及太多复杂难懂的东西，可以说是很简单的一个东西，请放心阅读。
　　技术上的实现，主要是用sklearn对采集到的微博文本做分类训练，关于sklearn就不需要介绍了，很有名的一个python机器学习工具，如果想详尽地了解可以移步它的官网：。
　　下面是我们接下来须要做的所有工作：
　　

　　环境
　　机器：mac
　　语言：python
　　第三方库：sklearn、jieba、pyquery 等
　　数据采集
　　数据采集是对我来说是最好做的一步，其实就是写爬虫从各大网站采集大量的信息，存上去，以便我们后续剖析处理。如下图：
　　

　　因为这只是一个试验性的兴趣项目，没办法花太多时间投入，所以我此次只准备从微博的搜索结果中，取1000条数据来剖析。当然若果有可能的话，数据越多越好，训练下来的模型就越确切。
　　采集的页面是百度的微博搜索结果页：腾讯&pn=0&tn=baiduwb&ie=utf-8&rtt=2
　　用python对该页面逐页抓取，然后用pyquery模块对抓取到的页面进行解析，得到一条条的微博文本。下面贴下这个页面的解析代码：
　　

　　人工处理
　　这一步是最悲催也是最花时间的一步，我们须要把采集到的数据，一条条精确地人工分类整理好，才能给后续的算法训练使用。如果你的场景在网上能找到现成的训练数据集，那么恭喜你已然节约了大把时间，但大多数情况还得自己来，所有脏活累活都在这了。而且人工分类的准确性，也决定了训练下来的模型的准确性，所以这一步的工作也是至关重要的。
　　我们的目标是把消息分为“正面”、“负面”和“中性”三个类别。首先我们要先给这三个类别下一个明晰的定义，这样在分类的时侯才不会苦恼。我个人给它们下的定义是：
　　正面：有利的新闻、积极正面的用户言论；
　　负面：不利的新闻、消极背面的用户言论；
　　中性：客观提到的新闻、不带爱情色调的用户言论。
　　按照前面的标准，我们把采集到的1000条微博一一分类标记好。
　　文本预处理
　　采集过来的微博文本，带有好多无效的信息，在开始训练之前，我们须要对这种文本做预处理，并保存为sklearn能接收的数据，主要工作包括：
　　1、去杂质，包括表情符号、特殊符号、短链接等无效信息，这里用正则过滤掉即可，不再详尽描述；
　　2、保存为文本文件，因为sklearn要求训练数据以特定的格式储存在本地目录，所以我们须要用脚本对原数据进行处理，目录格式如下：
　　

　　train：存放待训练的数据，子目录名称为分类名，子目录下储存训练文本文件，文件名随便，内容为单条微博文本；
　　test：存放带测试的数据，子目录名称随便，在子目录下储存测试文本文件。
　　建议训练集和测试集按8:2的比列界定，用python手动生成以上的本地文件。
　　3、分词，因为微博的数据大部分都是英文，所以推荐用jieba动词，对英文的支持比较给力，效果也挺好。支持自定义辞典，支持返回指定动词的不定式结果，可以消除一些停用词和语气助词等。使用上去也很简单，这里不详尽介绍，有须要可以访问它的github地址：
　　算法选择
　　准备好训练数据然后，我们就可以开始训练了，为此我们须要选择一个合适的分类算法。但机器学习算法那么多，如果一个个去测试对比，将耗费我们不少精力。幸好sklearn早已考虑到了这个问题，并提供了一个算法选择方案。通过把多个算法的运行结果进行图形化对比，可以太直观的看见那个算法比较合适。
　　这个是官方提供的测试代码：
　　把这个官方案例的数据输入部份替换成自己的即可。结果如下图：
　　

　　综合运算效率和得分情况，我选择了LinearSVC算法（SVM）来作为我的训练算法。
　　训练
　　文本分类的训练主要有以下4个步骤：
　　

　　这4个步骤 sklearn都已封装了相应的方式，所以使用上去十分便捷。参考如下代码：
　　

　　注：以上代码为了便捷展示，把模块引入也放在方式内部了，仅作参考
　　应用
　　最后就是对训练好的模型进行测试和应用。
　　通过已有的模型，对新的数据进行预测，代码如下：
　　

　　注：本代码只是展示用，仅作参考
　　打印下来的部份结果见右图：
　　

　　经统计，预测的准确率为95%，该模型算出的当日腾讯相关的舆情如下：
　　

　　结语
　　本文只是记录下我这三天的一些看法和试验过程，没有涉及太多代码实现或则其他深奥的算法，相信不难读懂。如果有人感兴趣的话，后面我可以把源码整理完发布下来。
　　感谢阅读！

大牛学习笔记：机器学习算法概览

采集交流 • 优采云发表了文章 • 0 个评论 • 194 次浏览 • 2020-08-26 00:35 • 来自相关话题

　　大牛学习笔记：机器学习算法概览
　　本文是翻译文章，但我并未逐条句的翻译，而是有所删节，并加入了一些自己的补充。
　　机器学习（Machine Learning， ML）是哪些，作为一个MLer，经常无法向你们解释何为ML。久而久之，发现要理解或解释机器学习是哪些，可以从机器学习可以解决的问题这个角度来说。对于MLers，理解ML解决的问题的类型也有助于我们更好的打算数据和选择算法。
　　十个机器学习问题样例
　　想入门机器学习的朋友，经常会去看一些入门书，比如《集体智慧编程》、《机器学习实战》、《数据挖掘》、《推荐系统实践》等。看书的过程中，经常性的会听到如下样例：
　　因此，当再有人问ML是哪些的时侯，就可以说这个是ML可以handle的，这个问题ML也可以handle，blahblah。
　　机器学习问题类型
　　对问题进行分类，好处就在于可以更好的掌握问题的本质，更好的晓得哪些类型的算法须要用到。
　　一般有四大类型：
　　机器学习算法
　　知道了机器学习要解决的问题后，就可以思索针对某一个问题，需要采集的数据的类型和可以使用的机器学习算法，机器学习发展到明天，诞生了好多算法，在实际应用中常常问题在于算法的选择，在本文中，使用两种标准对算法进行分类，即学习方法和算法之间的相似性。
　　学习方法（Learning Style）
　　在ML中，只有几个主流的学习方法，在下边的介绍中，使用一些算法和问题的样例来对这种方法进行解释说明。按照学习方法对机器学习算法进行分类可以让我们更多的思索输入数据在算法中的角色和使用模型前须要的打算工作，对我们选择最适宜的模型有挺好的指导作用。
　　在商业决策中，一般会使用的方式是监督学习和无监督学习。当下一个热门的话题是半监督学习，比如在图片分类中，有很多数据集都是有少量的标记数据和大量的非标记数据。增强学习更多的用于机器人控制机其他的控制系统中。
　　算法相似度（Algorithm Similarity）
　　一般会依照模型的模式或则函数模式的相似度来对算法进行界定。比如基于树的方式（tree-based method）与神经网路算法（neural network）。当然，这种方式并不完美，因为好多算法可以很容易的被界定到多个类别中去，比如学习矢量量化算法（Learning Vector Quantization）既是神经网路算法也是基于样例的算法（Instance-based method）。在本文中，可以看见好多不同的分类方式。
　　回归（Regression）
　　回归是在自变量和须要预测的变量之间建立一个模型，并使用迭代的方式逐步减少预测值和真实值之间的偏差。回归方式是统计机器学习的一种
　　常用的回归算法如下：
　　基于样例的方式（Instance-based Methods）
　　基于样例的方式须要一个样本库，当新样本出现时，在样本库中找到最佳匹配的若干个样本，然后作出猜想。基于样例的方式又被成为胜者为王的方式和基于显存的学习，该算法主要关注样本之间相似度的估算方式和储存数据的表示方式。
　　正则化方法（Regularization Methods）
　　这是一个对其他方式的延展（通常是回归方式），这个延展就是在模型上加上了一个惩罚项，相当于奥卡姆提及，对越简单的模型越有利，有避免过拟合的作用，并且更擅长归纳。我在这里列举它是因为它的流行和强悍。
　　决策树模型（Decision Tree Learning）
　　决策树方式构建了一个按照数据中属性的实际值决策的模型。决策树拿来解决归纳和回归问题。
　　贝叶斯（Bayesian）
　　贝叶斯方式是在解决归类和回归问题中应用了贝叶斯定理的技巧。
　　核技巧（Kernel Methods）
　　核方式中最有名的是Support Vector Machines(支持向量机)。这种方式把输入数据映射到更高维度上，将其显得可分，使得归类和回归问题更容易建模。
　　聚类（Clustering Methods）
　　聚类本身就形容了问题和技巧。聚类方式一般是由建模方法分类的诸如基于中心的降维和层次降维。所有的降维方式都是借助数据的内在结构来组织数据，使得每组内的点有最大的共同性。
　　联合规则学习（Association Rule Learning）
　　联合规则学习是拿来对数据间提取规律的方式，通过这种规律可以发觉巨量多维空间数据之间的联系，而那些重要的联系可以被组织用来使用或则赢利。
　　人工神经网络（Artificial Neural Networks）
　　受生物神经网络的结构和功能的启发诞生的人工神经网络属于模式匹配一类，经常被用于回归和分类问题，但是它存在上百个算法和变种组成。其中有一些是精典流行的算法（深度学习拿出来单独讲）：
　　深度学习（Deep Learning）
　　Deep Learning(深度学习)方法是人工神经网络在当下的一个变种。相比传统的神经网路，它更关注愈加复杂的网路构成，许多方式都是关心半监督学习，就是一个大数据集中只有少量标明数据的那个问题。
　　降维（Dimensionality Reduction）
　　与降维方式类似，对数据中的固有结构进行借助，使用无监督的方式学习一种方法，该方法用更少的信息来对数据做归纳和描述。这对于对数据进行可视化或则简化数据很有用，也有消除噪音的影响，经常采用这些方式促使算法愈发高效。
　　组合方式（Ensemble Methods）
　　Ensemble methods(组合方式)由许多小的模型组成，这些模型经过独立训练，做出独立的推论，最后汇总上去产生最后的预测。组合方式的研究点集中在使用哪些模型以及那些模型如何被组合上去。
　　文章出处：
　　关于我们 ID:DataScientistUnion
　　数盟网站：
　　数盟微博：@数盟社区查看全部

　　大牛学习笔记：机器学习算法概览
　　本文是翻译文章，但我并未逐条句的翻译，而是有所删节，并加入了一些自己的补充。
　　机器学习（Machine Learning， ML）是哪些，作为一个MLer，经常无法向你们解释何为ML。久而久之，发现要理解或解释机器学习是哪些，可以从机器学习可以解决的问题这个角度来说。对于MLers，理解ML解决的问题的类型也有助于我们更好的打算数据和选择算法。
　　十个机器学习问题样例
　　想入门机器学习的朋友，经常会去看一些入门书，比如《集体智慧编程》、《机器学习实战》、《数据挖掘》、《推荐系统实践》等。看书的过程中，经常性的会听到如下样例：
　　因此，当再有人问ML是哪些的时侯，就可以说这个是ML可以handle的，这个问题ML也可以handle，blahblah。
　　机器学习问题类型
　　对问题进行分类，好处就在于可以更好的掌握问题的本质，更好的晓得哪些类型的算法须要用到。
　　一般有四大类型：
　　机器学习算法
　　知道了机器学习要解决的问题后，就可以思索针对某一个问题，需要采集的数据的类型和可以使用的机器学习算法，机器学习发展到明天，诞生了好多算法，在实际应用中常常问题在于算法的选择，在本文中，使用两种标准对算法进行分类，即学习方法和算法之间的相似性。
　　学习方法（Learning Style）
　　在ML中，只有几个主流的学习方法，在下边的介绍中，使用一些算法和问题的样例来对这种方法进行解释说明。按照学习方法对机器学习算法进行分类可以让我们更多的思索输入数据在算法中的角色和使用模型前须要的打算工作，对我们选择最适宜的模型有挺好的指导作用。
　　在商业决策中，一般会使用的方式是监督学习和无监督学习。当下一个热门的话题是半监督学习，比如在图片分类中，有很多数据集都是有少量的标记数据和大量的非标记数据。增强学习更多的用于机器人控制机其他的控制系统中。
　　算法相似度（Algorithm Similarity）
　　一般会依照模型的模式或则函数模式的相似度来对算法进行界定。比如基于树的方式（tree-based method）与神经网路算法（neural network）。当然，这种方式并不完美，因为好多算法可以很容易的被界定到多个类别中去，比如学习矢量量化算法（Learning Vector Quantization）既是神经网路算法也是基于样例的算法（Instance-based method）。在本文中，可以看见好多不同的分类方式。
　　回归（Regression）
　　回归是在自变量和须要预测的变量之间建立一个模型，并使用迭代的方式逐步减少预测值和真实值之间的偏差。回归方式是统计机器学习的一种
　　常用的回归算法如下：
　　基于样例的方式（Instance-based Methods）
　　基于样例的方式须要一个样本库，当新样本出现时，在样本库中找到最佳匹配的若干个样本，然后作出猜想。基于样例的方式又被成为胜者为王的方式和基于显存的学习，该算法主要关注样本之间相似度的估算方式和储存数据的表示方式。
　　正则化方法（Regularization Methods）
　　这是一个对其他方式的延展（通常是回归方式），这个延展就是在模型上加上了一个惩罚项，相当于奥卡姆提及，对越简单的模型越有利，有避免过拟合的作用，并且更擅长归纳。我在这里列举它是因为它的流行和强悍。
　　决策树模型（Decision Tree Learning）
　　决策树方式构建了一个按照数据中属性的实际值决策的模型。决策树拿来解决归纳和回归问题。
　　贝叶斯（Bayesian）
　　贝叶斯方式是在解决归类和回归问题中应用了贝叶斯定理的技巧。
　　核技巧（Kernel Methods）
　　核方式中最有名的是Support Vector Machines(支持向量机)。这种方式把输入数据映射到更高维度上，将其显得可分，使得归类和回归问题更容易建模。
　　聚类（Clustering Methods）
　　聚类本身就形容了问题和技巧。聚类方式一般是由建模方法分类的诸如基于中心的降维和层次降维。所有的降维方式都是借助数据的内在结构来组织数据，使得每组内的点有最大的共同性。
　　联合规则学习（Association Rule Learning）
　　联合规则学习是拿来对数据间提取规律的方式，通过这种规律可以发觉巨量多维空间数据之间的联系，而那些重要的联系可以被组织用来使用或则赢利。
　　人工神经网络（Artificial Neural Networks）
　　受生物神经网络的结构和功能的启发诞生的人工神经网络属于模式匹配一类，经常被用于回归和分类问题，但是它存在上百个算法和变种组成。其中有一些是精典流行的算法（深度学习拿出来单独讲）：
　　深度学习（Deep Learning）
　　Deep Learning(深度学习)方法是人工神经网络在当下的一个变种。相比传统的神经网路，它更关注愈加复杂的网路构成，许多方式都是关心半监督学习，就是一个大数据集中只有少量标明数据的那个问题。
　　降维（Dimensionality Reduction）
　　与降维方式类似，对数据中的固有结构进行借助，使用无监督的方式学习一种方法，该方法用更少的信息来对数据做归纳和描述。这对于对数据进行可视化或则简化数据很有用，也有消除噪音的影响，经常采用这些方式促使算法愈发高效。
　　组合方式（Ensemble Methods）
　　Ensemble methods(组合方式)由许多小的模型组成，这些模型经过独立训练，做出独立的推论，最后汇总上去产生最后的预测。组合方式的研究点集中在使用哪些模型以及那些模型如何被组合上去。
　　文章出处：
　　关于我们 ID:DataScientistUnion
　　数盟网站：
　　数盟微博：@数盟社区

如何设计一款百万日活的推荐系统（1）—大智慧RES从0到1实战

采集交流 • 优采云发表了文章 • 0 个评论 • 174 次浏览 • 2020-08-26 00:15 • 来自相关话题

　　如何设计一款百万日活的推荐系统（1）—大智慧RES从0到1实战
　　编辑编者按：百万日活的推荐系统是很多人可望而不可求的，其系统的设计也并不简单，那么该怎么设计这样一款推荐系统呢？本文作者基于自己的实际搭建经验，为我们分享了他的产品设计历程，希望还能帮助你们在系统搭建的过程中少走一些弯路。
　　
　　前言
　　作者简介：本人3年金融行业产品经验，主攻python数据挖掘和机器学习。目前就职于北京大智慧，主要负责大数据平台、用户画像、推荐搜索、知识图谱等方向。曾参与过ontrade数字金融交易所、区块链皮夹、仙人掌股票期货投顾平台等多个项目。独自构建了数据驱动增长自媒体网站。
　　本系列专栏主要述说本人从0到1搭建RES推荐系统的一些经验，记录下产品设计的心路历程，以此激励自己不断探求新知识。
　　与市面上泛泛而谈的博客不同的是，本文主要从产品的角度，结合行业特点，剖析踩过的坑。
　　一、产品构架
　　任何一款再简单的产品，都须要商业模式和产品构架的设计。架构不需要多么复杂、花哨，深入理解行业背景，适合产品规划才是最重要。
　　
　　用visio画的一个比较满意的产品图，基本能把要抒发的思路全部画了下来。
　　不同于前任设计的基于规则的1.0版本，这次构建主要在于搭建一个可扩充的体系，同时引入数据驱动、算法赋能，而不是拍耳朵决定。
　　从产品的角度看推荐，应属于业务应用层。
　　一切的一切，都是基于底层埋点到剖析流程、大数据平台、用户标签画像、自然语言处理等基础服务搭建较为建立的前提下举办。
　　推荐的整体流程分为召回、过滤、排序（因为数据量不是十分大，所以不需要粗排、精排）、重排序，这次主要讲召回层最易理解但最重要的热门召回。
　　二、整体流程
　　
　　流程首先考虑闭环：从app用户行为形成、大数据实时统计，到形成热门召回、过滤、排序后，形成热门推荐服务；又通过用户行为来评估推荐疗效【产品指标，如PV/UV、人均阅读时长、转化率等】。
　　根据整体流程，发现核心在于热门值的估算方案。
　　新闻入到资讯的es库中，系统赋于一个初始热度值；进入推荐列表后，用户的点击、分享、点赞等交互行为可以提高新闻的热度值。由于新闻有较强的时效性，新闻发布后，热度非线性衰减。
　　资讯热度分=（初始热度值+用户交互形成热度值-低质量惩罚分（暂无））*时间衰减系数。
　　1. 初始热度值
　　1）不同类别的文章给与不同的权重
　　根据用户数据反馈，选择其中个别热门主题类型的文章，同时综合考虑高质量的类目，给与较高的权重。
　　类别初始热门值：
　　
　　2）人工打造热门词库
　　新媒体营运的专家是最懂行业，最懂当前热点的了，引入人工规则，维护一张热门词库。
　　
　　
　　对文章进行提取关键字，进行匹配，根据匹配程度适当提高热门权重。提取关键字的算法也很简单，利用textrank，弥补tf-idf难以提取上下文关系的劣势，取共现词topN。
　　def get_keywords(self,conntent):
　　key_words1 = jieba.analyse.extract_tags(sentence=conntent,topK=50,withWeight=True,allowPOS=[‘n’,’v’,’f’])
　　key_words2 = jieba.analyse.textrank(sentence=conntent,topK=50,withWeight=True,allowPOS=[‘n’,’f’,’v’])
　　key_words1 = dict(key_words1)
　　key_words2 = dict(key_words2)
　　df1 = pd.DataFrame([key_words1]).T
　　df2 = pd.DataFrame([key_words2]).T
　　#取二者共现词作为关键字，取内联接
　　df = pd.merge(df1,df2,how=’inner’,left_index=True,right_index=True).head(10)
　　#取tf-idf算法的权重作为真实权重
　　df=df.drop(df.columns[1], axis = 1)
　　#重设索引
　　df.reset_index(inplace=True,drop=False)
　　df.columns=[‘feature’,’weight’]
　　print(df)
　　return df
　　作为关键词，当然后置工作有清除停用词，后置工作有同义词归并等等，所以NLP的底层基础能力很重要。
　　3）自动发觉热词
　　若某一段时间，某一些文章的点击/搜素数目激增，排除置顶等营运干预后，就应当考虑到可能出现了热门词。这种可以通过算法手动捕捉：算法思路也很简单，通过降维，提取共性主题的关键字。
　　2. 交互热度值
　　取前M小时用户的不同行为赋于不同的分数，如【具体分值按照数据表现配置】：
　　
　　几个核心的点：
　　评论：无法单一的依据内容得出用户的偏好。需要对内容做正负面剖析。阅读时长：过短的阅读时长，可能是负面反馈。这里因为找不到好的拟合函数，就简单做了分段函数，正常来说应当是基于预估阅读时长做一个正态分布。3. 时间衰减
　　采用精典的hacker news的排名算法：
　　
　　G重力衰减因子默认为1.8，值越大衰减越快：
　　
　　
　　
　　至于接下来的，LR+adam排序算法，将在后续章节介绍。
　　作者：数据下降创始人，数据驱动增长自媒体网站创始人。查看全部

　　如何设计一款百万日活的推荐系统（1）—大智慧RES从0到1实战
　　编辑编者按：百万日活的推荐系统是很多人可望而不可求的，其系统的设计也并不简单，那么该怎么设计这样一款推荐系统呢？本文作者基于自己的实际搭建经验，为我们分享了他的产品设计历程，希望还能帮助你们在系统搭建的过程中少走一些弯路。
　　

　　前言
　　作者简介：本人3年金融行业产品经验，主攻python数据挖掘和机器学习。目前就职于北京大智慧，主要负责大数据平台、用户画像、推荐搜索、知识图谱等方向。曾参与过ontrade数字金融交易所、区块链皮夹、仙人掌股票期货投顾平台等多个项目。独自构建了数据驱动增长自媒体网站。
　　本系列专栏主要述说本人从0到1搭建RES推荐系统的一些经验，记录下产品设计的心路历程，以此激励自己不断探求新知识。
　　与市面上泛泛而谈的博客不同的是，本文主要从产品的角度，结合行业特点，剖析踩过的坑。
　　一、产品构架
　　任何一款再简单的产品，都须要商业模式和产品构架的设计。架构不需要多么复杂、花哨，深入理解行业背景，适合产品规划才是最重要。
　　

　　用visio画的一个比较满意的产品图，基本能把要抒发的思路全部画了下来。
　　不同于前任设计的基于规则的1.0版本，这次构建主要在于搭建一个可扩充的体系，同时引入数据驱动、算法赋能，而不是拍耳朵决定。
　　从产品的角度看推荐，应属于业务应用层。
　　一切的一切，都是基于底层埋点到剖析流程、大数据平台、用户标签画像、自然语言处理等基础服务搭建较为建立的前提下举办。
　　推荐的整体流程分为召回、过滤、排序（因为数据量不是十分大，所以不需要粗排、精排）、重排序，这次主要讲召回层最易理解但最重要的热门召回。
　　二、整体流程
　　

　　流程首先考虑闭环：从app用户行为形成、大数据实时统计，到形成热门召回、过滤、排序后，形成热门推荐服务；又通过用户行为来评估推荐疗效【产品指标，如PV/UV、人均阅读时长、转化率等】。
　　根据整体流程，发现核心在于热门值的估算方案。
　　新闻入到资讯的es库中，系统赋于一个初始热度值；进入推荐列表后，用户的点击、分享、点赞等交互行为可以提高新闻的热度值。由于新闻有较强的时效性，新闻发布后，热度非线性衰减。
　　资讯热度分=（初始热度值+用户交互形成热度值-低质量惩罚分（暂无））*时间衰减系数。
　　1. 初始热度值
　　1）不同类别的文章给与不同的权重
　　根据用户数据反馈，选择其中个别热门主题类型的文章，同时综合考虑高质量的类目，给与较高的权重。
　　类别初始热门值：
　　

　　2）人工打造热门词库
　　新媒体营运的专家是最懂行业，最懂当前热点的了，引入人工规则，维护一张热门词库。
　　

　　对文章进行提取关键字，进行匹配，根据匹配程度适当提高热门权重。提取关键字的算法也很简单，利用textrank，弥补tf-idf难以提取上下文关系的劣势，取共现词topN。
　　def get_keywords(self,conntent):
　　key_words1 = jieba.analyse.extract_tags(sentence=conntent,topK=50,withWeight=True,allowPOS=[‘n’,’v’,’f’])
　　key_words2 = jieba.analyse.textrank(sentence=conntent,topK=50,withWeight=True,allowPOS=[‘n’,’f’,’v’])
　　key_words1 = dict(key_words1)
　　key_words2 = dict(key_words2)
　　df1 = pd.DataFrame([key_words1]).T
　　df2 = pd.DataFrame([key_words2]).T
　　#取二者共现词作为关键字，取内联接
　　df = pd.merge(df1,df2,how=’inner’,left_index=True,right_index=True).head(10)
　　#取tf-idf算法的权重作为真实权重
　　df=df.drop(df.columns[1], axis = 1)
　　#重设索引
　　df.reset_index(inplace=True,drop=False)
　　df.columns=[‘feature’,’weight’]
　　print(df)
　　return df
　　作为关键词，当然后置工作有清除停用词，后置工作有同义词归并等等，所以NLP的底层基础能力很重要。
　　3）自动发觉热词
　　若某一段时间，某一些文章的点击/搜素数目激增，排除置顶等营运干预后，就应当考虑到可能出现了热门词。这种可以通过算法手动捕捉：算法思路也很简单，通过降维，提取共性主题的关键字。
　　2. 交互热度值
　　取前M小时用户的不同行为赋于不同的分数，如【具体分值按照数据表现配置】：
　　

　　几个核心的点：
　　评论：无法单一的依据内容得出用户的偏好。需要对内容做正负面剖析。阅读时长：过短的阅读时长，可能是负面反馈。这里因为找不到好的拟合函数，就简单做了分段函数，正常来说应当是基于预估阅读时长做一个正态分布。3. 时间衰减
　　采用精典的hacker news的排名算法：
　　

　　G重力衰减因子默认为1.8，值越大衰减越快：
　　

　　至于接下来的，LR+adam排序算法，将在后续章节介绍。
　　作者：数据下降创始人，数据驱动增长自媒体网站创始人。

爬虫平台Crawlab核心原理--自动提取数组算法

采集交流 • 优采云发表了文章 • 0 个评论 • 168 次浏览 • 2020-08-25 17:12 • 来自相关话题

　　爬虫平台Crawlab核心原理--自动提取数组算法
　　注意: 可配置爬虫如今仅在Python版本（v0.2.1-v0.2.4）可用，在最新版本Golang版本（v0.3.0）还暂时不可用，后续会加上，请关注近日更新
　　背景
　　实际的小型爬虫开发项目中，爬虫工程师会被要求抓取监控几十上百个网站。一般来说这种网站的结构大同小异，不同的主要是被抓取项的提取规则。传统方法是使爬虫工程师写一个通用框架，然后将各网站的提取规则弄成可配置的，然后将配置工作交给更中级的工程师或外包出去。这样做将爬虫开发流水线化，提高了部份生产效率。但是，配置的工作还是一个苦力活儿，还是十分消耗人力。因此，自动提取数组应运而生。
　　自动提取数组是Crawlab在中在基础上开发的新功能。它使用户不用做任何冗长的提取规则配置，就可以手动提取出可能的要抓取的列表项，做到真正的“一键抓取”，顺利的话，开发一个网站的爬虫可以半分钟内完成。市面上有借助机器学习的方式来实现手动抓取要提取的抓取规则，有一些可以做到精准提取，但遗憾的是平台要缴纳高额的费用，个人开发者或大型公司通常承当不起。
　　Crawlab的手动提取数组是按照人为抓取的模式来模拟的，因此不用经过任何训练就可以使用。而且，Crawlab的手动提取数组功能不会向用户缴纳费用，因为Crawlab本身就是免费的。
　　算法介绍
　　算法的核心来自于人的行为本身，通过查找网页中看起来象列表的元素来定位列表及抓取项。一般我们查找列表项是如何的一个过程呢？有人说：这还不容易吗，一看就晓得哪个是各列表呀！兄弟，拜托… 咱们是在程序的角度谈这个的，它只理解HTML、CSS、JS这种代码，并不象你那样智能。
　　我们辨识一个列表，首先要看它是不是有很多类似的子项；其次，这些列表一般来说看起来比较“复杂”，含有好多看得见的元素；最后，我们还要关注分页，分页按键通常称作“下一页”、“下页”、“Next”、“Next Page”等等。
　　用程序可以理解的语言，我们把以上规则总结如下：
　　列表项
　　列表子项
　　分页
　　这样，我们就设计好了手动提取列表项、列表子项、分页的规则。剩下的就是写代码了。我晓得这样的设计过分简单，也过分理想，没有考虑到一些特殊情况。后面我们将通过在一些著名网站上测试瞧瞧我们的算法表现怎么。
　　算法实现
　　算法实现很简单。为了更好的操作HTML标签，我们选择了库作为HTML的操作库。是python的一个解析库，支持HTML和XML的解析，支持XPath、CSS解析形式，而且解析效率十分高。
　　自上而下的遍历句型是。是，而会从根节点自上而下遍历各个元素，直到遍历完所有元素。它是一个。
　　构造解析树
　　在获取到页面的HTML以后，我们须要调用中的方式构造解析树。代码很简单如下，其中为的
　　这段带代码在方式里。源码请见。
　　辅助函数
　　在开始建立算法之前，我们须要实现一些辅助函数。所有函数是封装在类中的，所以写法与类方式一样。
　　
　　获取列表项
　　下是核心中的核心！同学们请集中注意力。
　　们来编撰获取列表项的代码。以下是获得列表标签候选列表的代码。看起来稍微有些复杂，但似乎逻辑很简单：对于每一个节点，我们获得所有子节点（一级），过滤出低于阀值（默认10）的节点，然后过滤出节点的子标签类别惟一的节点。这样候选列表就得到了。
　　接下来我们将从候选列表中筛选出收录最多文本子节点的节点。听起来有些生硬，打个比方：一个电商网站的列表子项，也就是产品项，一定是有许多诸如价钱、产品名、卖家等信息的，因此会收录好多文本节点。我们就是通过这些方法过滤掉文本信息不多的列表（例如菜单列表、类别列表等等），得到最终的列表。在代码里我们存为。
　　
　　，我们将生成列表项的CSS选择器。以下代码实现的逻辑主要就是按照前面得到的目标标签依照其或属性来生成CSS选择器。
　　找到目标列表项以后，我们须要做的就是将它下边的文本标签和超链接标签提取下来。代码如下，就不细讲了。感兴趣的读者可以看来理解。
　　
　　的代码很简单，实现也很容易，就不多说了，大家感兴趣的可以看
　　我们就实现了提取列表项以及列表子项的算法。
　　用技巧
　　要用手动提取数组，首先得安装Crawlab。如何安装请查看。
　　rawlab安装完毕运行上去后，得创建一个可配置爬虫，详细步骤请参考。
　　完毕后，我们来到创建好的可配置爬虫的爬虫详情的配置标签，输入开始URL，点击提取数组按键，Crawlab将从开始URL中提取列表数组。
　　来，点击预览瞧瞧这种数组是否为有效数组，可以适当增删改。可以的话点击运行，爬虫就开始爬数据了。
　　，你须要做的就是这几步，其余的交给Crawlab来做就可以了。
　　结果
　　本文在对排名前10的电商网站上进行了测试，仅有3个网站不能辨识（分别是因为“动态内容”、“列表没有id/class”、“lxml定位元素问题”），成功率为70%。读者们可以尝试用Crawlab手动提取数组功能对大家自己感兴趣的网站进行测试，看看是否符合预期。结果的详尽列表如下。
　　awlab的算法其实还须要改进，例如考虑动态内容和列表没有id/class等定位点的时侯。也欢迎诸位前来试用，甚至贡献该项目。
　　ithub:
　　您认为Crawlab对您的日常开发或公司有帮助，请加作者陌陌拉入开发交流群，大家一起交流关于Crawlab的使用和开发。
　　本篇文章由一文多发平台ArtiPub手动发布. 查看全部

　　爬虫平台Crawlab核心原理--自动提取数组算法
　　注意: 可配置爬虫如今仅在Python版本（v0.2.1-v0.2.4）可用，在最新版本Golang版本（v0.3.0）还暂时不可用，后续会加上，请关注近日更新
　　背景
　　实际的小型爬虫开发项目中，爬虫工程师会被要求抓取监控几十上百个网站。一般来说这种网站的结构大同小异，不同的主要是被抓取项的提取规则。传统方法是使爬虫工程师写一个通用框架，然后将各网站的提取规则弄成可配置的，然后将配置工作交给更中级的工程师或外包出去。这样做将爬虫开发流水线化，提高了部份生产效率。但是，配置的工作还是一个苦力活儿，还是十分消耗人力。因此，自动提取数组应运而生。
　　自动提取数组是Crawlab在中在基础上开发的新功能。它使用户不用做任何冗长的提取规则配置，就可以手动提取出可能的要抓取的列表项，做到真正的“一键抓取”，顺利的话，开发一个网站的爬虫可以半分钟内完成。市面上有借助机器学习的方式来实现手动抓取要提取的抓取规则，有一些可以做到精准提取，但遗憾的是平台要缴纳高额的费用，个人开发者或大型公司通常承当不起。
　　Crawlab的手动提取数组是按照人为抓取的模式来模拟的，因此不用经过任何训练就可以使用。而且，Crawlab的手动提取数组功能不会向用户缴纳费用，因为Crawlab本身就是免费的。
　　算法介绍
　　算法的核心来自于人的行为本身，通过查找网页中看起来象列表的元素来定位列表及抓取项。一般我们查找列表项是如何的一个过程呢？有人说：这还不容易吗，一看就晓得哪个是各列表呀！兄弟，拜托… 咱们是在程序的角度谈这个的，它只理解HTML、CSS、JS这种代码，并不象你那样智能。
　　我们辨识一个列表，首先要看它是不是有很多类似的子项；其次，这些列表一般来说看起来比较“复杂”，含有好多看得见的元素；最后，我们还要关注分页，分页按键通常称作“下一页”、“下页”、“Next”、“Next Page”等等。
　　用程序可以理解的语言，我们把以上规则总结如下：
　　列表项
　　列表子项
　　分页
　　这样，我们就设计好了手动提取列表项、列表子项、分页的规则。剩下的就是写代码了。我晓得这样的设计过分简单，也过分理想，没有考虑到一些特殊情况。后面我们将通过在一些著名网站上测试瞧瞧我们的算法表现怎么。
　　算法实现
　　算法实现很简单。为了更好的操作HTML标签，我们选择了库作为HTML的操作库。是python的一个解析库，支持HTML和XML的解析，支持XPath、CSS解析形式，而且解析效率十分高。
　　自上而下的遍历句型是。是，而会从根节点自上而下遍历各个元素，直到遍历完所有元素。它是一个。
　　构造解析树
　　在获取到页面的HTML以后，我们须要调用中的方式构造解析树。代码很简单如下，其中为的
　　这段带代码在方式里。源码请见。
　　辅助函数
　　在开始建立算法之前，我们须要实现一些辅助函数。所有函数是封装在类中的，所以写法与类方式一样。
　　
　　获取列表项
　　下是核心中的核心！同学们请集中注意力。
　　们来编撰获取列表项的代码。以下是获得列表标签候选列表的代码。看起来稍微有些复杂，但似乎逻辑很简单：对于每一个节点，我们获得所有子节点（一级），过滤出低于阀值（默认10）的节点，然后过滤出节点的子标签类别惟一的节点。这样候选列表就得到了。
　　接下来我们将从候选列表中筛选出收录最多文本子节点的节点。听起来有些生硬，打个比方：一个电商网站的列表子项，也就是产品项，一定是有许多诸如价钱、产品名、卖家等信息的，因此会收录好多文本节点。我们就是通过这些方法过滤掉文本信息不多的列表（例如菜单列表、类别列表等等），得到最终的列表。在代码里我们存为。
　　
　　，我们将生成列表项的CSS选择器。以下代码实现的逻辑主要就是按照前面得到的目标标签依照其或属性来生成CSS选择器。
　　找到目标列表项以后，我们须要做的就是将它下边的文本标签和超链接标签提取下来。代码如下，就不细讲了。感兴趣的读者可以看来理解。
　　
　　的代码很简单，实现也很容易，就不多说了，大家感兴趣的可以看
　　我们就实现了提取列表项以及列表子项的算法。
　　用技巧
　　要用手动提取数组，首先得安装Crawlab。如何安装请查看。
　　rawlab安装完毕运行上去后，得创建一个可配置爬虫，详细步骤请参考。
　　完毕后，我们来到创建好的可配置爬虫的爬虫详情的配置标签，输入开始URL，点击提取数组按键，Crawlab将从开始URL中提取列表数组。
　　来，点击预览瞧瞧这种数组是否为有效数组，可以适当增删改。可以的话点击运行，爬虫就开始爬数据了。
　　，你须要做的就是这几步，其余的交给Crawlab来做就可以了。
　　结果
　　本文在对排名前10的电商网站上进行了测试，仅有3个网站不能辨识（分别是因为“动态内容”、“列表没有id/class”、“lxml定位元素问题”），成功率为70%。读者们可以尝试用Crawlab手动提取数组功能对大家自己感兴趣的网站进行测试，看看是否符合预期。结果的详尽列表如下。
　　awlab的算法其实还须要改进，例如考虑动态内容和列表没有id/class等定位点的时侯。也欢迎诸位前来试用，甚至贡献该项目。
　　ithub:
　　您认为Crawlab对您的日常开发或公司有帮助，请加作者陌陌拉入开发交流群，大家一起交流关于Crawlab的使用和开发。
　　本篇文章由一文多发平台ArtiPub手动发布.

飓风算法3.0正式上线，控制跨领域采集及站群问

采集交流 • 优采云发表了文章 • 0 个评论 • 306 次浏览 • 2020-08-24 13:52 • 来自相关话题

　　飓风算法3.0正式上线，控制跨领域采集及站群问
　　2019年8月8日，百度飓风算法3.0正式上线，这词搜索引擎算法将对跨领域采集网站和站群采集问题做出惩罚。
　　为了维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发，SEO，百度搜索将在近日对飓风算法进行升级，上线飓风算法3.0。
　　本次算法升级主要针对跨领域采集以及站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的彰显。
　　以下详尽说明飓风算法3.0的相关规则。
　　一. 跨领域采集：
　　指站点/智能小程序为了获取更多流量，发布不属于站点/智能小程序领域范围的内容，通常这种内容采集自互联网，SEO优化，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/智能小程序的领域专注度不足，会有不同程度的限制凸显。
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　
　　百度飓风算法3.0美食类智能小程序发布篮球相关内容
　　问题示例：美食类智能小程序发布篮球相关内容
　　第二类：站点/智能小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：智能小程序内容涉及多个领域
　　
　　美食类智能小程序发布篮球相关内容
　　二. 站群问题：
　　指批量构造多个站点/智能小程序，获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个智能小程序复用同一模板，内容质量低、相似度高
　　
　　多个智能小程序复用同一模板，内容质量低、相似度高
　　以上就是飓风算法3.0的相关说明，算法预计在8月内相继上线。请你们及时查收站内信、短信等渠道的提醒，积极自查完成整改，避免不必要的损失。查看全部

　　飓风算法3.0正式上线，控制跨领域采集及站群问
　　2019年8月8日，百度飓风算法3.0正式上线，这词搜索引擎算法将对跨领域采集网站和站群采集问题做出惩罚。
　　为了维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发，SEO，百度搜索将在近日对飓风算法进行升级，上线飓风算法3.0。
　　本次算法升级主要针对跨领域采集以及站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的彰显。
　　以下详尽说明飓风算法3.0的相关规则。
　　一. 跨领域采集：
　　指站点/智能小程序为了获取更多流量，发布不属于站点/智能小程序领域范围的内容，通常这种内容采集自互联网，SEO优化，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/智能小程序的领域专注度不足，会有不同程度的限制凸显。
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　

　　百度飓风算法3.0美食类智能小程序发布篮球相关内容
　　问题示例：美食类智能小程序发布篮球相关内容
　　第二类：站点/智能小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：智能小程序内容涉及多个领域
　　

　　美食类智能小程序发布篮球相关内容
　　二. 站群问题：
　　指批量构造多个站点/智能小程序，获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个智能小程序复用同一模板，内容质量低、相似度高
　　

　　多个智能小程序复用同一模板，内容质量低、相似度高
　　以上就是飓风算法3.0的相关说明，算法预计在8月内相继上线。请你们及时查收站内信、短信等渠道的提醒，积极自查完成整改，避免不必要的损失。

百度飓风算法，严厉严打恶劣采集

采集交流 • 优采云发表了文章 • 0 个评论 • 318 次浏览 • 2020-08-22 21:46 • 来自相关话题

　　百度飓风算法，严厉严打恶劣采集
　　百度飓风算法，严厉严打恶劣采集
　　
　　百度飓风算法1.0
　　百度飓风算法1.0，撇开算法来理解飓风，飓风可以捣毁一切不结实的建筑物，但是足够优秀足够好的建筑却不会有事，所以飓风算法的上线，也是对网路环境的一次大清除。
　　言归正传，百度的飓风算法虽然也是如此个道理，从最早版本的飓风算法，到如今经历过好几次更新换代的飓风算法，一次比一次严厉，也可以看出百度对这个算法的注重程度，是一次是太严肃的处理，各位SEOer一定要注意。
　　飓风算法是哪些？
　　飓风算法是百度搜索针对恶劣采集为内容主要来源的网站，而推出的一种搜索引擎算法。
　　百度在9月下旬推出飓风算法，旨在严厉严打以恶劣采集为内容主要来源的网站，同时百度搜索将从索引库中彻底消除恶劣采集链接，营造良好的搜索内容生态，保护搜索用户的阅读浏览体验，保障优质内容生产方在百度搜索中的权益，给优质原创内容提供更多展示机会，促进搜索生态良性发展。
　　飓风算法彰显了百度搜索对恶劣采集的零容忍，如优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在百度资源管理平台反馈中心进行反馈。
　　“为了营造良好的搜索内容生态，保护搜索用户的阅读浏览体验，保障优质内容生产方在百度搜索中的权益，百度将于9月下旬对飓风算法进行升级。”百度发布了《百度搜索将推出飓风算法2.0，严厉严打恶劣采集行为》的公告，思巢网路详尽说明飓风算法2.0覆盖的问题以及到底应当怎样做。
　　飓风算法主要收录以下四类恶劣采集行为：
　　类型1：采集痕迹显著
　　详细说明：站点存在大量从其他站点或公众号采集、搬运而至的内容，信息未经整合，排版混乱，部分功能缺位或文章可读性差，有显著采集痕迹，用户阅读体会太差。
　　示例：采集文章内容中存在超链接不可点、功能缺位问题，采集痕迹显著。
　　建议：对于网站发布的内容，需注意文章的排版和布局，不应出现与文章主旨不相关的信息或不可用的功能，干扰用户的浏览。
　　类型2：内容拼接
　　详细说明：采集多篇不同文章进行拼接，整体内容未产生完整逻辑，存在阅读不通顺、文章不连贯等问题，无法满足用户需求。
　　示例：前后内容无关，逻辑不连贯。
　　建议：百度严厉反对借助采集编辑器等工具，随意生产拼接采集内容的行为，请网站多多生产对用户有价值的原创内容。
　　类型3：站点存在大量采集内容
　　详细说明：网站内容下多数内容均为采集，网站自身无内容生产力或内容生产能力较差，网站内容质量较低。查看全部

　　百度飓风算法，严厉严打恶劣采集
　　百度飓风算法，严厉严打恶劣采集
　　

　　百度飓风算法1.0
　　百度飓风算法1.0，撇开算法来理解飓风，飓风可以捣毁一切不结实的建筑物，但是足够优秀足够好的建筑却不会有事，所以飓风算法的上线，也是对网路环境的一次大清除。
　　言归正传，百度的飓风算法虽然也是如此个道理，从最早版本的飓风算法，到如今经历过好几次更新换代的飓风算法，一次比一次严厉，也可以看出百度对这个算法的注重程度，是一次是太严肃的处理，各位SEOer一定要注意。
　　飓风算法是哪些？
　　飓风算法是百度搜索针对恶劣采集为内容主要来源的网站，而推出的一种搜索引擎算法。
　　百度在9月下旬推出飓风算法，旨在严厉严打以恶劣采集为内容主要来源的网站，同时百度搜索将从索引库中彻底消除恶劣采集链接，营造良好的搜索内容生态，保护搜索用户的阅读浏览体验，保障优质内容生产方在百度搜索中的权益，给优质原创内容提供更多展示机会，促进搜索生态良性发展。
　　飓风算法彰显了百度搜索对恶劣采集的零容忍，如优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在百度资源管理平台反馈中心进行反馈。
　　“为了营造良好的搜索内容生态，保护搜索用户的阅读浏览体验，保障优质内容生产方在百度搜索中的权益，百度将于9月下旬对飓风算法进行升级。”百度发布了《百度搜索将推出飓风算法2.0，严厉严打恶劣采集行为》的公告，思巢网路详尽说明飓风算法2.0覆盖的问题以及到底应当怎样做。
　　飓风算法主要收录以下四类恶劣采集行为：
　　类型1：采集痕迹显著
　　详细说明：站点存在大量从其他站点或公众号采集、搬运而至的内容，信息未经整合，排版混乱，部分功能缺位或文章可读性差，有显著采集痕迹，用户阅读体会太差。
　　示例：采集文章内容中存在超链接不可点、功能缺位问题，采集痕迹显著。
　　建议：对于网站发布的内容，需注意文章的排版和布局，不应出现与文章主旨不相关的信息或不可用的功能，干扰用户的浏览。
　　类型2：内容拼接
　　详细说明：采集多篇不同文章进行拼接，整体内容未产生完整逻辑，存在阅读不通顺、文章不连贯等问题，无法满足用户需求。
　　示例：前后内容无关，逻辑不连贯。
　　建议：百度严厉反对借助采集编辑器等工具，随意生产拼接采集内容的行为，请网站多多生产对用户有价值的原创内容。
　　类型3：站点存在大量采集内容
　　详细说明：网站内容下多数内容均为采集，网站自身无内容生产力或内容生产能力较差，网站内容质量较低。

百度飓风算法3.0官方公告剖析

采集交流 • 优采云发表了文章 • 0 个评论 • 164 次浏览 • 2020-08-21 22:12 • 来自相关话题

　　百度飓风算法3.0官方公告剖析
　　各位SEO站长朋友们请注意了，百度搜索8月8日发布了《飓风算法3.0正式上线，控制跨领域采集及站群问题》的官方公告，公告上将严打跨领域采集及站群问题，主要剖析分享如下：
　　跨领域采集指网站或者百度小程序为了获取更多流量，发布不属于站点/智能小程序领域范围的内容，通常这种内容采集自互联网，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/智能小程序的领域专注度不足，会有不同程度的限制凸显。
　　特征是，主网站的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。俗称张冠李戴。
　　主网站核心不够明晰的，内容涉及多个领域或行业，领域模糊、领域专注度低。泛内容网站，信息混杂，就是构建的对象。
　　
　　
　　指批量构造多个站点/智能小程序，获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。如：多个智能小程序复用同一模板，内容质量低、相似度高
　　
　　
　　如果目前你的网站或者小程序出现所描述的操作，请尽早去除规范操作和内容，以免遭到算法命中。
　　Q1：同一品牌下，分公司的网站/智能小程序都采用相同的模板，是否会被判断为站群，被飓风算法3.0命中呢？ A1：对于站群问题，算法会依照多个诱因综合判定，如页面排版相似度、同一主体下的站点/智能小程序数目、内容质量、内容稀缺性、内容相似度等等。如果同一品牌下的网站/智能小程序，使用相同的页面排版，内容相似度较高，这类情况也有可能被判断为站群，存在被算法命中的风险。
　　Q2：这次飓风算法升级主要严打跨领域采集，那么同领域的采集会被算法覆盖吗？A2：此次飓风算法3.0的主要升级点是强化了对跨领域采集和站群问题的覆盖，但往年飓风算法对恶劣采集的控制仍然有效。百度搜索算法仍然在持续运行，控制伤害用户体验的违法问题，不会由于算法的升级或新增而造成旧算法停止。
　　
　　
　　Q3：如果站点/智能小程序中有当初跨领域采集的内容，为了防止被算法命中，需要将原先的跨领域内容删掉吗？燗3：是的，如果站点/智能小程序中以前发布过与网站/智能小程序所属领域不相关的内容，我们建议您早日删掉跨领域的内容，深耕当前领域，生产满足用户需求的优质内容，提升网站/智能小程序的领域专注度。
　　Q4：在一个站点下设置不同主题的频道或目录，发布不同领域的内容，这样会被算法命中吗？燗4：在同一个站点下可以存在不同主题的频道或目录，但每位频道的内容都应该与该站点的领域定位相关，且专注于该领域，频道内容应是满足搜索用户需求的优质内容。
　　Q5：在同一个主体下开发不同的智能小程序，发布不同领域的内容，这样会被算法命中吗？燗5：在同一个主体下可以存在不同主题的智能小程序，但每一个智能小程序都应该具有专业的资源、优质的内容、完善的功能，不存在站群行为，且内容应专注于该智能小程序所属的领域。
　　
　　
　　最近热点话题，头条开始做搜索了，百度心中肯定不好受，大家如何看？查看全部

　　百度飓风算法3.0官方公告剖析
　　各位SEO站长朋友们请注意了，百度搜索8月8日发布了《飓风算法3.0正式上线，控制跨领域采集及站群问题》的官方公告，公告上将严打跨领域采集及站群问题，主要剖析分享如下：
　　跨领域采集指网站或者百度小程序为了获取更多流量，发布不属于站点/智能小程序领域范围的内容，通常这种内容采集自互联网，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/智能小程序的领域专注度不足，会有不同程度的限制凸显。
　　特征是，主网站的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。俗称张冠李戴。
　　主网站核心不够明晰的，内容涉及多个领域或行业，领域模糊、领域专注度低。泛内容网站，信息混杂，就是构建的对象。
　　

　　指批量构造多个站点/智能小程序，获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。如：多个智能小程序复用同一模板，内容质量低、相似度高
　　

　　如果目前你的网站或者小程序出现所描述的操作，请尽早去除规范操作和内容，以免遭到算法命中。
　　Q1：同一品牌下，分公司的网站/智能小程序都采用相同的模板，是否会被判断为站群，被飓风算法3.0命中呢？ A1：对于站群问题，算法会依照多个诱因综合判定，如页面排版相似度、同一主体下的站点/智能小程序数目、内容质量、内容稀缺性、内容相似度等等。如果同一品牌下的网站/智能小程序，使用相同的页面排版，内容相似度较高，这类情况也有可能被判断为站群，存在被算法命中的风险。
　　Q2：这次飓风算法升级主要严打跨领域采集，那么同领域的采集会被算法覆盖吗？A2：此次飓风算法3.0的主要升级点是强化了对跨领域采集和站群问题的覆盖，但往年飓风算法对恶劣采集的控制仍然有效。百度搜索算法仍然在持续运行，控制伤害用户体验的违法问题，不会由于算法的升级或新增而造成旧算法停止。
　　

　　Q3：如果站点/智能小程序中有当初跨领域采集的内容，为了防止被算法命中，需要将原先的跨领域内容删掉吗？燗3：是的，如果站点/智能小程序中以前发布过与网站/智能小程序所属领域不相关的内容，我们建议您早日删掉跨领域的内容，深耕当前领域，生产满足用户需求的优质内容，提升网站/智能小程序的领域专注度。
　　Q4：在一个站点下设置不同主题的频道或目录，发布不同领域的内容，这样会被算法命中吗？燗4：在同一个站点下可以存在不同主题的频道或目录，但每位频道的内容都应该与该站点的领域定位相关，且专注于该领域，频道内容应是满足搜索用户需求的优质内容。
　　Q5：在同一个主体下开发不同的智能小程序，发布不同领域的内容，这样会被算法命中吗？燗5：在同一个主体下可以存在不同主题的智能小程序，但每一个智能小程序都应该具有专业的资源、优质的内容、完善的功能，不存在站群行为，且内容应专注于该智能小程序所属的领域。
　　

　　最近热点话题，头条开始做搜索了，百度心中肯定不好受，大家如何看？

百度飓风算法什么样的资源才算采集

采集交流 • 优采云发表了文章 • 0 个评论 • 264 次浏览 • 2020-08-21 16:03 • 来自相关话题

　　百度飓风算法什么样的资源才算采集
　　百度推出飓风算法有一段时间了，给做网站的人的一个最直接的体会就是好多网站收录率都在增长，一些新站点基本上没有收录了。首先对于百度推出飓风算法这个事情来说。肯定是好事，尤其是对于八宝网这样的新站点来说，能够更好的保护网站的原创资源，下边为你们来探讨百度的飓风算法。
　　百度原创保护公测活动地址>
　　
　　百度推出飓风官方公告：
　　百度搜索于近期推出飓风算法，旨在严厉严打以恶劣采集为内容主要来源的网站，同时百度搜索将从索引库中彻底消除恶劣采集链接，给优质原创内容提供更多展示机会，促进搜索生态良性发展。
　　飓风算法会例行产出惩罚数据，同时会按照情况随时调整迭代，体现了百度搜索对恶劣采集的零容忍。优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在反馈中心进行反馈。
　　推出目的：
　　保护原创站点的优质内容，现在用户在百度每一次的搜索下来的都是各类没有意义的结果，长此以往使用百度搜索引擎的人会越来越少，所以对于构建高质量的内容也是搜索引擎的一个很重要目标。
　　因为现今移动端的崛起，各类APP例如明日头条陌陌早已把原先的搜索引擎市场份额给吞掉了。通过各种高质量的原创内容来把原先的搜索引擎的用户吸引回百度也是她们的一个战略调整。
　　打击目标：
　　以恶劣采集为主要内容来源的网站，对于从索引库中彻底消除恶劣采集链接，给优质的原创内容提供更多的机会。在网站中使用大量的恶劣采集了内容的网站就要非常的担忧了。
　　算法解析：
　　表述一：严厉严打以恶劣采集为内容主要来源的网站
　　随着各式各样的采集工具常态化，网站上的垃圾信息越来越多，同一篇文章搜索下，起码返回2页以上的结果，而这实际上没给用户带来很大的利润，却是给搜索引擎带来了极大的负担。只是，这个严打采集的话，百度也不是第一天讲了。具体是如何严打，尚待结果。
　　表述二、从索引库中彻底消除恶劣采集链接
　　以往采集的结果基本上算法风头过过去，就好了，不知道这股飓风，这次是不是真的会把那些采集链接连根卷起！你们也如此想的，对不对，哈哈！
　　表述三、给优质原创内容提供更多展示机会
　　不知道这个断句断的怎样，意思是通过严打采集链接，从而给到原创更多的展示。还是说，有更多的服务能帮助原创内容得到展示。说实话，现在各种自媒体的原创保护都比百度这个老大哥要更走心一些，不知道百度如今要怎么走。
　　表述四、例行产出惩罚数据，根据情况随时调整迭代
　　霍霍，惩罚数据啊，筒子们，你们准备好了吗？你们阻挡的住吗？很可能会被抓到惩罚数据里哦！而且从调整迭代看出，飓风算法是有好几个版本切换的。
　　百度飓风算法袭来
　　表述五、原创站点索引量急剧降低且流量急剧下降现象，可反馈
　　就这句话，一大波真正的原创站点恐怕要倒霉了，可能百度辨识的时间是以它的抓取时间为准，而有些真实原创的站点，综合评分不及大站的话，可能就看上去全是采集转载的了？比如福州筑梦SEO这个站点，难道，天了噜！
　　热门评测：
　　飓风算法会例行产出惩罚数据，同时会按照情况随时调整迭代，体现了百度搜索对恶劣采集的零容忍。优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在反馈中心进行反馈。
　　
　　优质内容标准无法划分，有时候伪原创比原创觉得好，那机器就辨识就难堪了。目前来看似乎好多网站都有采集行为，如果真要严打采集的话，360DOC这类型的站如何算?很多新闻站也是互相采集的，百度也没有明晰强调怎样判别采集。
　　如果百度站长平台降低一个举报入口其实会更好。
　　第一次当爸爸觉得力不从心怎么教育小孩比较好查看全部

　　百度飓风算法什么样的资源才算采集
　　百度推出飓风算法有一段时间了，给做网站的人的一个最直接的体会就是好多网站收录率都在增长，一些新站点基本上没有收录了。首先对于百度推出飓风算法这个事情来说。肯定是好事，尤其是对于八宝网这样的新站点来说，能够更好的保护网站的原创资源，下边为你们来探讨百度的飓风算法。
　　百度原创保护公测活动地址>
　　

　　百度推出飓风官方公告：
　　百度搜索于近期推出飓风算法，旨在严厉严打以恶劣采集为内容主要来源的网站，同时百度搜索将从索引库中彻底消除恶劣采集链接，给优质原创内容提供更多展示机会，促进搜索生态良性发展。
　　飓风算法会例行产出惩罚数据，同时会按照情况随时调整迭代，体现了百度搜索对恶劣采集的零容忍。优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在反馈中心进行反馈。
　　推出目的：
　　保护原创站点的优质内容，现在用户在百度每一次的搜索下来的都是各类没有意义的结果，长此以往使用百度搜索引擎的人会越来越少，所以对于构建高质量的内容也是搜索引擎的一个很重要目标。
　　因为现今移动端的崛起，各类APP例如明日头条陌陌早已把原先的搜索引擎市场份额给吞掉了。通过各种高质量的原创内容来把原先的搜索引擎的用户吸引回百度也是她们的一个战略调整。
　　打击目标：
　　以恶劣采集为主要内容来源的网站，对于从索引库中彻底消除恶劣采集链接，给优质的原创内容提供更多的机会。在网站中使用大量的恶劣采集了内容的网站就要非常的担忧了。
　　算法解析：
　　表述一：严厉严打以恶劣采集为内容主要来源的网站
　　随着各式各样的采集工具常态化，网站上的垃圾信息越来越多，同一篇文章搜索下，起码返回2页以上的结果，而这实际上没给用户带来很大的利润，却是给搜索引擎带来了极大的负担。只是，这个严打采集的话，百度也不是第一天讲了。具体是如何严打，尚待结果。
　　表述二、从索引库中彻底消除恶劣采集链接
　　以往采集的结果基本上算法风头过过去，就好了，不知道这股飓风，这次是不是真的会把那些采集链接连根卷起！你们也如此想的，对不对，哈哈！
　　表述三、给优质原创内容提供更多展示机会
　　不知道这个断句断的怎样，意思是通过严打采集链接，从而给到原创更多的展示。还是说，有更多的服务能帮助原创内容得到展示。说实话，现在各种自媒体的原创保护都比百度这个老大哥要更走心一些，不知道百度如今要怎么走。
　　表述四、例行产出惩罚数据，根据情况随时调整迭代
　　霍霍，惩罚数据啊，筒子们，你们准备好了吗？你们阻挡的住吗？很可能会被抓到惩罚数据里哦！而且从调整迭代看出，飓风算法是有好几个版本切换的。
　　百度飓风算法袭来
　　表述五、原创站点索引量急剧降低且流量急剧下降现象，可反馈
　　就这句话，一大波真正的原创站点恐怕要倒霉了，可能百度辨识的时间是以它的抓取时间为准，而有些真实原创的站点，综合评分不及大站的话，可能就看上去全是采集转载的了？比如福州筑梦SEO这个站点，难道，天了噜！
　　热门评测：
　　飓风算法会例行产出惩罚数据，同时会按照情况随时调整迭代，体现了百度搜索对恶劣采集的零容忍。优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在反馈中心进行反馈。
　　

　　优质内容标准无法划分，有时候伪原创比原创觉得好，那机器就辨识就难堪了。目前来看似乎好多网站都有采集行为，如果真要严打采集的话，360DOC这类型的站如何算?很多新闻站也是互相采集的，百度也没有明晰强调怎样判别采集。
　　如果百度站长平台降低一个举报入口其实会更好。
　　第一次当爸爸觉得力不从心怎么教育小孩比较好

大数据技术中，关于用户行为剖析方面的有什么技术？

采集交流 • 优采云发表了文章 • 0 个评论 • 173 次浏览 • 2020-08-20 02:09 • 来自相关话题

　　大数据技术中，关于用户行为剖析方面的有什么技术？
　　一、用户行为剖析的巨大需求
　　单从数据组成的角度来说，一个建立的闭环数据源主要是分成三大块：第一块是用户行为数据，第二块是服务端日志数据，第三块是交易 Transaction 数据。其中，除了交易数据会时常被储存在离线数据库中，通过 ETL 来获取剖析以外，行为数据和日志数据好多时侯都是近似的，完备的用户行为数据基本能覆盖绝大多数的服务端日志数据，同时上面收录着好多日志数据上面所缺少的信息。
　　从技术发展角度来说，最近几年发展最快的可以说是后端，每个月就会有好多新的东西出现，整体趋势是往单页应用发展，追求用户体验。同时，还有移动端应用，也形成着大量的行为数据，这些都不会跟服务端有过多交互。
　　所以，从应用提供商来说，我们须要晓得屏幕前的人是如何使用我们的产品的，洞悉用户行为背后的价值。
　　从今年 12 月 8 号公测及发布到如今早已过去半年时间了，目前有几百家顾客在使用。我总结了一下顾客常常问的剖析需求，大致可以分成三个场景：
　　Δ第一个场景：我做了一次活动，我写了一篇文章，我想知道究竟疗效怎样，有没有给我带来足够的流量，也就是市场营销疗效评判。我们有些顾客，每年有上百万的市场预算在 SEM 上，但是却完全不知道那些钱花出去究竟带来了多少回报。
　　Δ第二个场景：用户激活流程是否合理，辛辛苦苦导出了流量，这些流量有没有转化为用户，注册流上面每一步转化了多少，流失了多少，没有转化的去了哪儿。在这个基础上，我们应当如何优化，优化后的疗效是如何的，这周的转化率比上周是否有进步，差别是如何造成的等等。
　　Δ第三个场景：这些注册用户，有没有留下来成为一个忠诚用户甚至付费用户。留下来的用户，是因为哪些留下来的。是否存在一个魔法数字，可以去极大的提升用户存留，比如： LinkedIn 发现在第一周降低 5 个社交关系的用户存留度很高； Facebook 发现在第一周降低 10 个好友的用户存留度很高； Twitter 发现在第一周有 30 个 followers 的用户存留度很高； Dropbox 发现在第一周安装两个以上操作系统的用户存留度很高。这些都是在存留剖析中发觉的魔法数字。
　　二、复杂而易错的传统剖析方式
　　归根结底，所有的剖析最终都是为了商业服务，而商业是为人服务的。所以，用户行为剖析就是我们须要构建一套基于用户行为的剖析体系，在了解用户“谁”做了“什么”，“怎么”做的之外，进而明白是“为什么”做，对症下药，转化成为优化行动。
　　分析是一个长时间优化的过程，需要我们持续监控数据的变化。而数据指标不仅行为数据指标外还有一类，我们称之为虚荣指标，比如 PV、UV 之类流量概览性数据，这些指标见到了也就看见了，没法指导我们做的更好。用户行为数据指标则是另外一类，比如我们前面介绍的用户获取、用户激活、用户存留之类，了解这种行为前面就会对应到一个优化流程，所以也称作 Actionable Metric，可执行指标，这也是用户行为数据的魅力。
　　● 那么接下来，我们要开始跟踪用户行为了。
　　一般可以分为以下七步：
　　1.确定剖析场景或目标。
　　确定一个场景或一个目标。比如，我们发觉好多用户访问了注册页面，但是最终完成注册的极少，那么我们的目标就是提升注册转化率，了解为何用户没有完成注册，是哪一个步骤堵住用户了。
　　2.思考须要了解什么数据。
　　思考什么数据我们须要了解，帮助我们实现这个目标。比如对于之前的目标，我们须要拆解从步入注册页面到完成注册的每一个步骤的数据，每一次输入的数据，同时，完成或未完成这种步骤的人的特点数据。
　　3.确定谁来负责搜集数据？
　　谁负责搜集这种数据，一般是我们工程师。
　　4.什么时候评估和剖析？
　　采集上来的数据怎么剖析，什么时候来评估采集到的数据。
　　5.如何给出优化解决方案？
　　发现问题后，怎么来出解决方案。比如，是否在设计上改进，或者是否是工程上的 bug。
　　6.谁负责实现解决方案。确定方案的施行责任人。
　　7.如何评估解决方案的疗效？
　　下一轮数据采集和剖析，回到第一步继续迭代。
　　知易行难。这整个流程里，第 2 步到第 4 步是关键。目前传统的服务商例如 GA、Mixpanel、友盟所采用的方法我称之为 Capture 模式。通过在客户端埋下确定的点，采集相关数据到云端，最终在云端做呈现。比如图中这个示例，相信在座的诸位应当都有写过类似的代码。
　　Capture 模式对于非探索式剖析来说，是一个特别行之有效的方式。然而，同时对参与整个流程的人也提出了特别高的要求：
　　Δ缺点1：依赖经验导向
　　Capture 模式十分依赖人的经验和直觉，不是说经验和直觉不好，而是有时我们自己也不晓得究竟哪些是好的，经验反倒会成为一个先入为主的负担，我们须要用数据来测试来证明。
　　Δ缺点2：沟通成本高
　　另外，一个有效的剖析结果，依赖于数据的完整性和完备性。跟不少企业沟通后，不少的吐槽都是“连日志格式都统一不了”，更别提后续剖析了。这不是具体人的问题，更多是协作沟通的问题。参与人越多，产品总监、分析师、工程师、运营等等，每个人的专业领域又各不相同，出现误会很正常了。曾经跟我们的 CEO Simon 交流过，他在 LinkedIn 带领数据剖析部门的时侯，LinkedIn 专门成立了一个多达 27 人的埋点团队，每天开会，就是为了统一埋点的格式和位置，经常一开就是几个礼拜。
　　Δ缺点3：大量时间数据清洗和数据剖析代码侵入
　　另外，由于需求的多变性，埋点分成多次加入，缺乏统筹设计和统一管理，结果自然是无比丑恶。所以我们数据工程师还有个很大的工作是数据清洗，手动跑 ETL 出报表。根据统计，绝大多数剖析工作，百分之七十到八十的时间是在做数据清洗和自动 ETL，只有百分之二十左右在做真正有业务价值的事情。另外一方面，作为一个有洁癖的工程师，最恨的就是大量的剖析代码侵入了我的业务代码，删不敢删，改不敢改，日积月累，最终代码库整个就混乱了。
　　Δ缺点4：数据漏采错踩
　　以上都还是好的，最使人恼火的是，上线了，发现数据采集错了或则漏了，修正后，又得重新跑一遍流程，一个星期两个星期又过去了。这也是为什么，数据剖析工作是这么历时通常以月计的缘由，非常低效。
　　三、无需埋点的数据剖析原理
　　在经历了无数个痛楚的清晨之后，我们决定要换个思路思索，希望能最大限度的增加人为错误，我们称之为 Record 模式。区别于 Capture 模式，Record 模式是用机器来代替人的经验，自动采集用户在网站或者应用里的全量行为数据。因为自动化，我们从剖析流程的源头开始就控制了数据的格式。
　　所有数据，从业务角度出发，划分为 5 种维度： Who，行为背后的人，具有什么属性；When，什么时候触发的这个行为；Where，城市地区浏览器甚至 GPS 等；What，也就是内容；How，是如何完成的。基于对信息的重构，保证了数据从源头就是干净的，在此基础之上，我们完全可以把 ETL 自动化，需要哪些数据可以随时回溯。
　　回到之前流程的第二步到第四步，我们早已把参与人从多方降低到基本就一方，无论是产品总监、分析师还是营运人员，都可以使用可视化工具来查询和剖析数据，真正做到所见即所得。不仅是 PC，还支持 iOS、Android 和 Hybrid，可以进行跨屏的用户剖析。
　　作为一家用户行为剖析工具提供商，要做的并不只是用于内部，还须要适应外部成千上万的网站和应用，所以在实现过程中我们做了好多探求：
　　● 自动用户行为采集
　　目前我们所接触的 GUI 程序，无论是 Web App、iOS App 还是 Android App，都是基于两个原则，树形结构和风波驱动模型。无论是 Web 上的 DOM 结点结构，还是 App 上的 UI 控件结构，都是建立好的一颗完整的树状结构渲染在页面或则屏幕上。所以通过对树结构的监控和测量，我们就可以十分便捷地晓得什么结点发生了变化，何时发生了变化，发生了哪些变化。同时，当用户做了某个操作，比如键盘点击、屏幕触控，都会触发一个风波，绑定了该风波的回调函数都会被触发开始执行。基于此两点认识，在 SDK 里面怎么实现无埋点就比较清楚了。只要能在结点变化或则风波发生的时侯触发我们定义的函数，那么我就晓得风波发生的多重信息。
　　● 数据可视化
　　如何把采集到的数据和业务目标匹配在一起。我们的解决方案是我们的可视化工具。刚才早已提及任何一个原子数据，都被拆解成 5 种不同分类的维度。所以，当我们在可视化工具上面做匹配时，也就是对于不同维度信息的匹配。比如一个链接的点击，会匹配到内容或则跳转地址也就是 What，点击行为也就是 How。还有其在页面的定位信息，比如在树状结构中的层次位置，是否带一些 id、class 或者 tag，都是拿来做数据匹配的信息。我们开发了一套智能匹配系统，通过对用户真实行为的学习，建立了一套规则引擎，用于元素匹配。也正由于采集到的是全量数据，整个匹配系统有如基因进化通常，既有对过去历史的记忆，也有迎合新结构的演化变化。
　　● BI
　　商业剖析我们在系统设计过程中，整个 Data Pipeline 过程中，数据经过处理后，会依据优先级不同，首先通过 Spark Streaming 实时的处理已定义数据，然后每过一段时间对匹配到的数据做离线预聚合，多维剖析十分灵活。
　　用户行为数据采集的目的是通过了解用户过去做的行为，用来预测未来发生的事情，无需埋点，随时回溯数据，让产品总监一个人就可以搞定用户行为剖析的全部流程。我们希望能提供一个简单、迅速和规模化的数据剖析产品，能极大地简化剖析流程，提交效率，直达业务。而这一切的基础，就是我们从第一天开始就始终在研制的无埋点智能全量数据采集，基于此优化产品体验，实现精细化营运，用数据驱动用户和产值下降。查看全部

　　大数据技术中，关于用户行为剖析方面的有什么技术？
　　一、用户行为剖析的巨大需求
　　单从数据组成的角度来说，一个建立的闭环数据源主要是分成三大块：第一块是用户行为数据，第二块是服务端日志数据，第三块是交易 Transaction 数据。其中，除了交易数据会时常被储存在离线数据库中，通过 ETL 来获取剖析以外，行为数据和日志数据好多时侯都是近似的，完备的用户行为数据基本能覆盖绝大多数的服务端日志数据，同时上面收录着好多日志数据上面所缺少的信息。
　　从技术发展角度来说，最近几年发展最快的可以说是后端，每个月就会有好多新的东西出现，整体趋势是往单页应用发展，追求用户体验。同时，还有移动端应用，也形成着大量的行为数据，这些都不会跟服务端有过多交互。
　　所以，从应用提供商来说，我们须要晓得屏幕前的人是如何使用我们的产品的，洞悉用户行为背后的价值。
　　从今年 12 月 8 号公测及发布到如今早已过去半年时间了，目前有几百家顾客在使用。我总结了一下顾客常常问的剖析需求，大致可以分成三个场景：
　　Δ第一个场景：我做了一次活动，我写了一篇文章，我想知道究竟疗效怎样，有没有给我带来足够的流量，也就是市场营销疗效评判。我们有些顾客，每年有上百万的市场预算在 SEM 上，但是却完全不知道那些钱花出去究竟带来了多少回报。
　　Δ第二个场景：用户激活流程是否合理，辛辛苦苦导出了流量，这些流量有没有转化为用户，注册流上面每一步转化了多少，流失了多少，没有转化的去了哪儿。在这个基础上，我们应当如何优化，优化后的疗效是如何的，这周的转化率比上周是否有进步，差别是如何造成的等等。
　　Δ第三个场景：这些注册用户，有没有留下来成为一个忠诚用户甚至付费用户。留下来的用户，是因为哪些留下来的。是否存在一个魔法数字，可以去极大的提升用户存留，比如： LinkedIn 发现在第一周降低 5 个社交关系的用户存留度很高； Facebook 发现在第一周降低 10 个好友的用户存留度很高； Twitter 发现在第一周有 30 个 followers 的用户存留度很高； Dropbox 发现在第一周安装两个以上操作系统的用户存留度很高。这些都是在存留剖析中发觉的魔法数字。
　　二、复杂而易错的传统剖析方式
　　归根结底，所有的剖析最终都是为了商业服务，而商业是为人服务的。所以，用户行为剖析就是我们须要构建一套基于用户行为的剖析体系，在了解用户“谁”做了“什么”，“怎么”做的之外，进而明白是“为什么”做，对症下药，转化成为优化行动。
　　分析是一个长时间优化的过程，需要我们持续监控数据的变化。而数据指标不仅行为数据指标外还有一类，我们称之为虚荣指标，比如 PV、UV 之类流量概览性数据，这些指标见到了也就看见了，没法指导我们做的更好。用户行为数据指标则是另外一类，比如我们前面介绍的用户获取、用户激活、用户存留之类，了解这种行为前面就会对应到一个优化流程，所以也称作 Actionable Metric，可执行指标，这也是用户行为数据的魅力。
　　● 那么接下来，我们要开始跟踪用户行为了。
　　一般可以分为以下七步：
　　1.确定剖析场景或目标。
　　确定一个场景或一个目标。比如，我们发觉好多用户访问了注册页面，但是最终完成注册的极少，那么我们的目标就是提升注册转化率，了解为何用户没有完成注册，是哪一个步骤堵住用户了。
　　2.思考须要了解什么数据。
　　思考什么数据我们须要了解，帮助我们实现这个目标。比如对于之前的目标，我们须要拆解从步入注册页面到完成注册的每一个步骤的数据，每一次输入的数据，同时，完成或未完成这种步骤的人的特点数据。
　　3.确定谁来负责搜集数据？
　　谁负责搜集这种数据，一般是我们工程师。
　　4.什么时候评估和剖析？
　　采集上来的数据怎么剖析，什么时候来评估采集到的数据。
　　5.如何给出优化解决方案？
　　发现问题后，怎么来出解决方案。比如，是否在设计上改进，或者是否是工程上的 bug。
　　6.谁负责实现解决方案。确定方案的施行责任人。
　　7.如何评估解决方案的疗效？
　　下一轮数据采集和剖析，回到第一步继续迭代。
　　知易行难。这整个流程里，第 2 步到第 4 步是关键。目前传统的服务商例如 GA、Mixpanel、友盟所采用的方法我称之为 Capture 模式。通过在客户端埋下确定的点，采集相关数据到云端，最终在云端做呈现。比如图中这个示例，相信在座的诸位应当都有写过类似的代码。
　　Capture 模式对于非探索式剖析来说，是一个特别行之有效的方式。然而，同时对参与整个流程的人也提出了特别高的要求：
　　Δ缺点1：依赖经验导向
　　Capture 模式十分依赖人的经验和直觉，不是说经验和直觉不好，而是有时我们自己也不晓得究竟哪些是好的，经验反倒会成为一个先入为主的负担，我们须要用数据来测试来证明。
　　Δ缺点2：沟通成本高
　　另外，一个有效的剖析结果，依赖于数据的完整性和完备性。跟不少企业沟通后，不少的吐槽都是“连日志格式都统一不了”，更别提后续剖析了。这不是具体人的问题，更多是协作沟通的问题。参与人越多，产品总监、分析师、工程师、运营等等，每个人的专业领域又各不相同，出现误会很正常了。曾经跟我们的 CEO Simon 交流过，他在 LinkedIn 带领数据剖析部门的时侯，LinkedIn 专门成立了一个多达 27 人的埋点团队，每天开会，就是为了统一埋点的格式和位置，经常一开就是几个礼拜。
　　Δ缺点3：大量时间数据清洗和数据剖析代码侵入
　　另外，由于需求的多变性，埋点分成多次加入，缺乏统筹设计和统一管理，结果自然是无比丑恶。所以我们数据工程师还有个很大的工作是数据清洗，手动跑 ETL 出报表。根据统计，绝大多数剖析工作，百分之七十到八十的时间是在做数据清洗和自动 ETL，只有百分之二十左右在做真正有业务价值的事情。另外一方面，作为一个有洁癖的工程师，最恨的就是大量的剖析代码侵入了我的业务代码，删不敢删，改不敢改，日积月累，最终代码库整个就混乱了。
　　Δ缺点4：数据漏采错踩
　　以上都还是好的，最使人恼火的是，上线了，发现数据采集错了或则漏了，修正后，又得重新跑一遍流程，一个星期两个星期又过去了。这也是为什么，数据剖析工作是这么历时通常以月计的缘由，非常低效。
　　三、无需埋点的数据剖析原理
　　在经历了无数个痛楚的清晨之后，我们决定要换个思路思索，希望能最大限度的增加人为错误，我们称之为 Record 模式。区别于 Capture 模式，Record 模式是用机器来代替人的经验，自动采集用户在网站或者应用里的全量行为数据。因为自动化，我们从剖析流程的源头开始就控制了数据的格式。
　　所有数据，从业务角度出发，划分为 5 种维度： Who，行为背后的人，具有什么属性；When，什么时候触发的这个行为；Where，城市地区浏览器甚至 GPS 等；What，也就是内容；How，是如何完成的。基于对信息的重构，保证了数据从源头就是干净的，在此基础之上，我们完全可以把 ETL 自动化，需要哪些数据可以随时回溯。
　　回到之前流程的第二步到第四步，我们早已把参与人从多方降低到基本就一方，无论是产品总监、分析师还是营运人员，都可以使用可视化工具来查询和剖析数据，真正做到所见即所得。不仅是 PC，还支持 iOS、Android 和 Hybrid，可以进行跨屏的用户剖析。
　　作为一家用户行为剖析工具提供商，要做的并不只是用于内部，还须要适应外部成千上万的网站和应用，所以在实现过程中我们做了好多探求：
　　● 自动用户行为采集
　　目前我们所接触的 GUI 程序，无论是 Web App、iOS App 还是 Android App，都是基于两个原则，树形结构和风波驱动模型。无论是 Web 上的 DOM 结点结构，还是 App 上的 UI 控件结构，都是建立好的一颗完整的树状结构渲染在页面或则屏幕上。所以通过对树结构的监控和测量，我们就可以十分便捷地晓得什么结点发生了变化，何时发生了变化，发生了哪些变化。同时，当用户做了某个操作，比如键盘点击、屏幕触控，都会触发一个风波，绑定了该风波的回调函数都会被触发开始执行。基于此两点认识，在 SDK 里面怎么实现无埋点就比较清楚了。只要能在结点变化或则风波发生的时侯触发我们定义的函数，那么我就晓得风波发生的多重信息。
　　● 数据可视化
　　如何把采集到的数据和业务目标匹配在一起。我们的解决方案是我们的可视化工具。刚才早已提及任何一个原子数据，都被拆解成 5 种不同分类的维度。所以，当我们在可视化工具上面做匹配时，也就是对于不同维度信息的匹配。比如一个链接的点击，会匹配到内容或则跳转地址也就是 What，点击行为也就是 How。还有其在页面的定位信息，比如在树状结构中的层次位置，是否带一些 id、class 或者 tag，都是拿来做数据匹配的信息。我们开发了一套智能匹配系统，通过对用户真实行为的学习，建立了一套规则引擎，用于元素匹配。也正由于采集到的是全量数据，整个匹配系统有如基因进化通常，既有对过去历史的记忆，也有迎合新结构的演化变化。
　　● BI
　　商业剖析我们在系统设计过程中，整个 Data Pipeline 过程中，数据经过处理后，会依据优先级不同，首先通过 Spark Streaming 实时的处理已定义数据，然后每过一段时间对匹配到的数据做离线预聚合，多维剖析十分灵活。
　　用户行为数据采集的目的是通过了解用户过去做的行为，用来预测未来发生的事情，无需埋点，随时回溯数据，让产品总监一个人就可以搞定用户行为剖析的全部流程。我们希望能提供一个简单、迅速和规模化的数据剖析产品，能极大地简化剖析流程，提交效率，直达业务。而这一切的基础，就是我们从第一天开始就始终在研制的无埋点智能全量数据采集，基于此优化产品体验，实现精细化营运，用数据驱动用户和产值下降。

“飓风算法”之后，SEO优化人员该怎样调整策略

采集交流 • 优采云发表了文章 • 0 个评论 • 134 次浏览 • 2020-08-18 22:30 • 来自相关话题

　　“飓风算法”之后，SEO优化人员该怎样调整策略
　　为了规范SEO优化细节，2017年7月7日，百度搜索引擎推出“飓风算法”，全文如下：“百度推出飓风算法，严厉严打恶劣采集“百度搜索于近期推出飓风算法，旨在严厉严打以恶劣采集为内容主要来源的网站，同时百度搜索将从索引库中彻底消除恶劣采集链接，给优质原创内容提供更多展示机会，促进搜索生态良性发展。
　　飓风算法会例行产出惩罚数据，同时会按照情况随时调整迭代，体现了百度搜索对恶劣采集的零容忍。优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在反馈中心进行反馈。”
　　
　　可以看出，“飓风算法”的主要目的是严打采集为主要来源的网站。这早已不是百度第一次提出要保护原创文章的网站了。那么为何百度要这样做，“飓风算法”之后我们网站的内容该怎么样建设，网站SEO优化将会何去何从？今天上海seo优化小编就和你们讨论一下。
　　首先，从原创网站的角度出发，如果自己原创的文章总是被其他网站采集，并且采集的网站关键词排行要低于自己的网站，原创网站的内容创作人员很容易丧失信心。一篇原创文章需要起码30分钟的时间，如果是专业性的内容甚至须要几个小时就能完成，如果轻而易举的被他人采集，加上自己网站没有得到相应的排行和流程，这是十分苦闷的过程，久而久之会导致丧失创作的动力。这种情况是百度不乐意见到了，如果没有了高质量的内容，搜索引擎将会是空中楼阁。这也就是为何百度力推百家号的缘由了，目的还是在于鼓励创作者的激情，获得源源不断的内容。
　　其次，站在搜索引擎用户的角度出发，如果一篇文章被大量采集，并且都能获得不错的排行，用户搜索见到了结果将会特别的雷同，这就丧失了搜索引擎的本质。搜索结果的质量增长会直接造成用户的流失，这是搜索引擎最不乐意见到的结果。
　　最后，作为搜索引擎，如果不通过一次次的算法更新剔除恶劣采集的链接，搜索结果将会不断增长，毕竟搜索引擎是核心算法都是程序，不可能做到完美，每过一段时间都会有黑帽SEO优化人员总结出其中的算法规律，就像我们上面提及的采集贴吧内容的方式，哪个时期，这种方式几天之内能够把关键词排行做到前三。
　　那么“飓风算法”之后，作为SEO优化人员该怎么调整策略，才能使自己的网站排名快速上升了？其实作为一个白帽SEO优化人员，“飓风算法”的更新对我们的还是十分有利的。白帽SEO优化的核心就是关键词的挖掘和内容的建设。我们平常最头痛的问题就是自己辛苦原创的内容被他人剽窃，折腾了几个月，网站排名还没有黑帽SEO优化网站的疗效好等等。
　　在“飓风算法”之后，我们应当愈发坚定的坚持自己的SEO优化方向，将更多的精力和时间投入到挖掘用户的需求和内容的建设前面。如果碰到自己网站的内容被采集或者剽窃，可以到百度站长工具投诉，内容方面要紧密结合用户需求，具体的方式主要有以下三步骤：
　　1.挖掘关键词；
　　2.分析隐藏在关键词背后的用户需求，这一点就须要对关键词进行深入的剖析，了解用户搜索某一个关键词究竟想要得到哪些结果；
　　3.为关键词撰写内容，内容的撰写就要根据第二点中提及的满足用户的需求。千万不可自己臆测猜想，杜撰故事。这样的内容即使是难逃了搜索引擎的算法，也会最终被用户抛弃。
　　百度官方公告最后提出：“百度搜索对恶劣采集的零容忍”，这是一个讯号，意味着后续百度搜索引擎会用更强的力度对待采集、低质量内容。我们在SEO优化过程中要愈发的慎重，切记不要跨过红线。SEO优化的标准翻译是搜索引擎优化，不要和个别机构说的那样将SEO优化妖魔化，认为SEO优化就是作弊。查看全部

　　“飓风算法”之后，SEO优化人员该怎样调整策略
　　为了规范SEO优化细节，2017年7月7日，百度搜索引擎推出“飓风算法”，全文如下：“百度推出飓风算法，严厉严打恶劣采集“百度搜索于近期推出飓风算法，旨在严厉严打以恶劣采集为内容主要来源的网站，同时百度搜索将从索引库中彻底消除恶劣采集链接，给优质原创内容提供更多展示机会，促进搜索生态良性发展。
　　飓风算法会例行产出惩罚数据，同时会按照情况随时调整迭代，体现了百度搜索对恶劣采集的零容忍。优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在反馈中心进行反馈。”
　　

　　可以看出，“飓风算法”的主要目的是严打采集为主要来源的网站。这早已不是百度第一次提出要保护原创文章的网站了。那么为何百度要这样做，“飓风算法”之后我们网站的内容该怎么样建设，网站SEO优化将会何去何从？今天上海seo优化小编就和你们讨论一下。
　　首先，从原创网站的角度出发，如果自己原创的文章总是被其他网站采集，并且采集的网站关键词排行要低于自己的网站，原创网站的内容创作人员很容易丧失信心。一篇原创文章需要起码30分钟的时间，如果是专业性的内容甚至须要几个小时就能完成，如果轻而易举的被他人采集，加上自己网站没有得到相应的排行和流程，这是十分苦闷的过程，久而久之会导致丧失创作的动力。这种情况是百度不乐意见到了，如果没有了高质量的内容，搜索引擎将会是空中楼阁。这也就是为何百度力推百家号的缘由了，目的还是在于鼓励创作者的激情，获得源源不断的内容。
　　其次，站在搜索引擎用户的角度出发，如果一篇文章被大量采集，并且都能获得不错的排行，用户搜索见到了结果将会特别的雷同，这就丧失了搜索引擎的本质。搜索结果的质量增长会直接造成用户的流失，这是搜索引擎最不乐意见到的结果。
　　最后，作为搜索引擎，如果不通过一次次的算法更新剔除恶劣采集的链接，搜索结果将会不断增长，毕竟搜索引擎是核心算法都是程序，不可能做到完美，每过一段时间都会有黑帽SEO优化人员总结出其中的算法规律，就像我们上面提及的采集贴吧内容的方式，哪个时期，这种方式几天之内能够把关键词排行做到前三。
　　那么“飓风算法”之后，作为SEO优化人员该怎么调整策略，才能使自己的网站排名快速上升了？其实作为一个白帽SEO优化人员，“飓风算法”的更新对我们的还是十分有利的。白帽SEO优化的核心就是关键词的挖掘和内容的建设。我们平常最头痛的问题就是自己辛苦原创的内容被他人剽窃，折腾了几个月，网站排名还没有黑帽SEO优化网站的疗效好等等。
　　在“飓风算法”之后，我们应当愈发坚定的坚持自己的SEO优化方向，将更多的精力和时间投入到挖掘用户的需求和内容的建设前面。如果碰到自己网站的内容被采集或者剽窃，可以到百度站长工具投诉，内容方面要紧密结合用户需求，具体的方式主要有以下三步骤：
　　1.挖掘关键词；
　　2.分析隐藏在关键词背后的用户需求，这一点就须要对关键词进行深入的剖析，了解用户搜索某一个关键词究竟想要得到哪些结果；
　　3.为关键词撰写内容，内容的撰写就要根据第二点中提及的满足用户的需求。千万不可自己臆测猜想，杜撰故事。这样的内容即使是难逃了搜索引擎的算法，也会最终被用户抛弃。
　　百度官方公告最后提出：“百度搜索对恶劣采集的零容忍”，这是一个讯号，意味着后续百度搜索引擎会用更强的力度对待采集、低质量内容。我们在SEO优化过程中要愈发的慎重，切记不要跨过红线。SEO优化的标准翻译是搜索引擎优化，不要和个别机构说的那样将SEO优化妖魔化，认为SEO优化就是作弊。

百度飓风算法3.0使跨领域采集及站群网站无所遁

采集交流 • 优采云发表了文章 • 0 个评论 • 289 次浏览 • 2020-08-18 21:39 • 来自相关话题

　　百度飓风算法3.0使跨领域采集及站群网站无所遁
　　影响seo类的算法比比皆是，百度飓风算法3.0推出的主要目的是严打跨领域采集及站群问题。百度搜索引擎的用户群体庞大，各种旁门左道获取流量的行为被不断专研，以跨领域采集内容以及建设站群形式获取流量便是其中的方法，这种行为被百度搜索引擎所严禁，百度飓风算法3.0便引申而出。
　　为了维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发，百度搜索将在近日对飓风算法进行升级，上线飓风算法3.0。
　　本次算法升级主要针对跨领域采集以及站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的诠释。
　　以下详尽说明飓风算法3.0的相关规则。
　　一. 跨领域采集（内容不相关或则模糊）：
　　指站点/智能小程序为了获取更多流量，发布不属于站点/智能小程序领域范围的内容，通常这种内容采集自互联网，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/智能小程序的领域专注度不足，会有不同程度的限制诠释。
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　问题示例：美食类智能小程序发布篮球相关内容
　　
　　第二类：站点/智能小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：智能小程序内容涉及多个领域
　　
　　二. 站群问题（建多个站或则流量但内容质量低）：
　　指批量构造多个站点/智能小程序，获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个智能小程序复用同一模板，内容重复度高、内容少且内容稀缺性低。
　　
　　总结：
　　各种seo类人群早已承当了百度的产品总监角色，不断专研百度搜索引擎的漏洞，不断挑战百度工程师的技术水平，这实际是一个好事。程序有漏洞，被发觉，弥补，本身就是正常现象。百度飓风算法3.0的推出，永无止境。
　　参考资料：飓风算法3.0。查看全部

　　百度飓风算法3.0使跨领域采集及站群网站无所遁
　　影响seo类的算法比比皆是，百度飓风算法3.0推出的主要目的是严打跨领域采集及站群问题。百度搜索引擎的用户群体庞大，各种旁门左道获取流量的行为被不断专研，以跨领域采集内容以及建设站群形式获取流量便是其中的方法，这种行为被百度搜索引擎所严禁，百度飓风算法3.0便引申而出。
　　为了维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发，百度搜索将在近日对飓风算法进行升级，上线飓风算法3.0。
　　本次算法升级主要针对跨领域采集以及站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的诠释。
　　以下详尽说明飓风算法3.0的相关规则。
　　一. 跨领域采集（内容不相关或则模糊）：
　　指站点/智能小程序为了获取更多流量，发布不属于站点/智能小程序领域范围的内容，通常这种内容采集自互联网，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/智能小程序的领域专注度不足，会有不同程度的限制诠释。
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　问题示例：美食类智能小程序发布篮球相关内容
　　

　　第二类：站点/智能小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：智能小程序内容涉及多个领域
　　

　　二. 站群问题（建多个站或则流量但内容质量低）：
　　指批量构造多个站点/智能小程序，获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个智能小程序复用同一模板，内容重复度高、内容少且内容稀缺性低。
　　

　　总结：
　　各种seo类人群早已承当了百度的产品总监角色，不断专研百度搜索引擎的漏洞，不断挑战百度工程师的技术水平，这实际是一个好事。程序有漏洞，被发觉，弥补，本身就是正常现象。百度飓风算法3.0的推出，永无止境。
　　参考资料：飓风算法3.0。

对于百度的飓风算法3.0上线，打击采集站等站群您怎样看？

采集交流 • 优采云发表了文章 • 0 个评论 • 546 次浏览 • 2020-08-18 11:53 • 来自相关话题

　　对于百度的飓风算法3.0上线，打击采集站等站群您怎样看？
　　飓风 3.0，控制跨领域采集及
　　本次算法升级主要针对跨领域采集以及站群问题，将覆盖下的PC站点、H5站点、等内容。对于算法覆盖的站点/小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的彰显。
　　以下详尽说明飓风算法3.0的相关规则。
　　一. 跨领域采集：
　　指站点/小程序为了获取更多流量，发布不属于站点/小程序领域范围的内容，通常这种内容采集自，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/小程序的领域专注度不足，会有不同程度的限制凸显。
　　
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题//摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　问题示例：美食类小程序发布篮球相关内容
　　
　　第二类：站点/小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：小程序内容涉及多个领域
　　
　　二. 站群问题：
　　指批量构造多个站点/小程序，获取搜索流量的行为。站群中的站点/小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个小程序复用同一模板，内容质量低、相似度高
　　
　　与其说百度飓风算法 3.0 是针对跨领域采集和站群，其实看上更象实在辅助和为百度智能小程序铺路，以及降低智能小程序的的，以算法的方法间接的将流量导向百度的小程序。
　　飓风算法3.0问答
　　Q1：同一品牌下，分公司的/智能小程序都采用相同的模板，是否会被判断为站群，被飓风算法3.0命中呢?
　　A1：对于站群问题，算法会依照多个诱因综合判定，如页面排版相似度、同一主体下的站点/智能小程序数目、内容质量、内容稀缺性、内容相似度等等。
　　如果同一品牌下的网站/智能小程序，使用相同的页面排版，内容相似度较高，这类情况也有可能被判断为站群，存在被算法命中的风险。
　　Q2：这次飓风算法升级主要严打跨领域采集，那么同领域的采集会被算法覆盖吗?
　　A2：此次飓风算法3.0的主要升级点是强化了对跨领域采集和站群问题的覆盖，但往年飓风算法对恶劣采集的控制仍然有效。百度搜索算法仍然在持续运行，控制伤害用户体验的违法问题，不会由于算法的升级或新增而造成旧算法停止。
　　
　　Q3：如果站点/智能小程序中有当初跨领域采集的内容，为了防止被算法命中，需要将原先的跨领域内容删掉吗?
　　A3：是的，如果站点/智能小程序中以前发布过与网站/智能小程序所属领域不相关的内容，我们建议您早日删掉跨领域的内容，深耕当前领域，生产满足用户需求的优质内容，提升网站/智能小程序的领域专注度。
　　Q4：在一个站点下设置不同主题的频道或目录，发布不同领域的内容，这样会被算法命中吗?
　　A4：在同一个站点下可以存在不同主题的频道或目录，但每位频道的内容都应该与该站点的领域定位相关，且专注于该领域，频道内容应是满足搜索用户需求的优质内容。
　　Q5：在同一个主体下开发不同的智能小程序，发布不同领域的内容，这样会被算法命中吗?
　　A5：在同一个主体下可以存在不同主题的智能小程序，但每一个智能小程序都应该具有专业的资源、优质的内容、完善的功能，不存在站群行为，且内容应专注于该智能小程序所属的领域。查看全部

　　对于百度的飓风算法3.0上线，打击采集站等站群您怎样看？
　　飓风 3.0，控制跨领域采集及
　　本次算法升级主要针对跨领域采集以及站群问题，将覆盖下的PC站点、H5站点、等内容。对于算法覆盖的站点/小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的彰显。
　　以下详尽说明飓风算法3.0的相关规则。
　　一. 跨领域采集：
　　指站点/小程序为了获取更多流量，发布不属于站点/小程序领域范围的内容，通常这种内容采集自，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/小程序的领域专注度不足，会有不同程度的限制凸显。
　　

　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题//摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　问题示例：美食类小程序发布篮球相关内容
　　

　　第二类：站点/小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：小程序内容涉及多个领域
　　

　　二. 站群问题：
　　指批量构造多个站点/小程序，获取搜索流量的行为。站群中的站点/小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个小程序复用同一模板，内容质量低、相似度高
　　

　　与其说百度飓风算法 3.0 是针对跨领域采集和站群，其实看上更象实在辅助和为百度智能小程序铺路，以及降低智能小程序的的，以算法的方法间接的将流量导向百度的小程序。
　　飓风算法3.0问答
　　Q1：同一品牌下，分公司的/智能小程序都采用相同的模板，是否会被判断为站群，被飓风算法3.0命中呢?
　　A1：对于站群问题，算法会依照多个诱因综合判定，如页面排版相似度、同一主体下的站点/智能小程序数目、内容质量、内容稀缺性、内容相似度等等。
　　如果同一品牌下的网站/智能小程序，使用相同的页面排版，内容相似度较高，这类情况也有可能被判断为站群，存在被算法命中的风险。
　　Q2：这次飓风算法升级主要严打跨领域采集，那么同领域的采集会被算法覆盖吗?
　　A2：此次飓风算法3.0的主要升级点是强化了对跨领域采集和站群问题的覆盖，但往年飓风算法对恶劣采集的控制仍然有效。百度搜索算法仍然在持续运行，控制伤害用户体验的违法问题，不会由于算法的升级或新增而造成旧算法停止。
　　

　　Q3：如果站点/智能小程序中有当初跨领域采集的内容，为了防止被算法命中，需要将原先的跨领域内容删掉吗?
　　A3：是的，如果站点/智能小程序中以前发布过与网站/智能小程序所属领域不相关的内容，我们建议您早日删掉跨领域的内容，深耕当前领域，生产满足用户需求的优质内容，提升网站/智能小程序的领域专注度。
　　Q4：在一个站点下设置不同主题的频道或目录，发布不同领域的内容，这样会被算法命中吗?
　　A4：在同一个站点下可以存在不同主题的频道或目录，但每位频道的内容都应该与该站点的领域定位相关，且专注于该领域，频道内容应是满足搜索用户需求的优质内容。
　　Q5：在同一个主体下开发不同的智能小程序，发布不同领域的内容，这样会被算法命中吗?
　　A5：在同一个主体下可以存在不同主题的智能小程序，但每一个智能小程序都应该具有专业的资源、优质的内容、完善的功能，不存在站群行为，且内容应专注于该智能小程序所属的领域。

飓风算法3.0百度算法剖析，控制跨领域采集及站群问题

采集交流 • 优采云发表了文章 • 0 个评论 • 471 次浏览 • 2020-08-16 20:58 • 来自相关话题

　　飓风算法3.0百度算法剖析，控制跨领域采集及站群问题
　　
　　飓风算法3.0
　　飓风算法3.0
　　8月8日，百度发布了《飓风算法3.0正式上线，控制跨领域采集及站群问题》的公告。为了维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发，百度搜索将在近日对飓风算法进行升级，上线升级了飓风算法3.0。
　　本次算法升级主要针对跨领域采集以及站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的诠释。
　　以下详尽说明飓风算法3.0的相关规则。
　　问题一：同一品牌下，分公司的网站/智能小程序都采用相同的模板，是否会被判断为站群，被飓风算法3.0命中呢？
　　回答一：对于站群问题，算法会依照多个诱因综合判定，如页面排版相似度、同一主体下的站点/智能小程序数目、内容质量、内容稀缺性、内容相似度等等。
　　如果同一品牌下的网站/智能小程序，使用相同的页面排版，内容相似度较高，这类情况也有可能被判断为站群，存在被算法命中的风险。
　　问题示例：某品牌下多个地区分公司的智能小程序，使用相同的模板，内容质量低，相似度高。
　　
　　小程序使用一样模板
　　飓风算法3.0
　　问题二：这次飓风算法升级主要严打跨领域采集，那么同领域的采集会被算法覆盖吗？
　　回答二：此次飓风算法3.0的主要升级点是加大了对跨领域采集和站群问题的覆盖，但往年飓风算法对恶劣采集的控制仍然有效。百度搜索算法仍然在持续运行，控制伤害用户体验的违法问题，不会由于算法的升级或新增而造成旧算法停止。
　　问题三：如果站点/智能小程序中有当初跨领域采集的内容，为了防止被算法命中，需要将原先的跨领域内容删掉吗？
　　回答三：是的，如果站点/智能小程序中以前发布过与网站/智能小程序所属领域不相关的内容，我们建议您早日删掉跨领域的内容，深耕当前领域，生产满足用户需求的优质内容，提升网站/智能小程序的领域专注度。
　　问题四：在一个站点下设置不同主题的频道或目录，并发布不同领域的内容，这样会被算法命中吗？
　　回答四：在同一个站点下可以存在不同主题的频道或目录，但每位频道的内容都应该与该站点的领域定位相关，且专注于该领域，频道内容应是满足搜索用户需求的优质内容。
　　问题五：这次飓风算法升级主要严打跨领域采集，那么同领域的采集会被算法覆盖吗？
　　回答五：在同一个主体下可以存在不同主题的智能小程序，但每一个智能小程序都应该具有专业的资源、优质的内容、完善的功能，不存在站群行为，且内容应专注于该智能小程序所属的领域。查看全部

　　飓风算法3.0百度算法剖析，控制跨领域采集及站群问题
　　

　　飓风算法3.0
　　飓风算法3.0
　　8月8日，百度发布了《飓风算法3.0正式上线，控制跨领域采集及站群问题》的公告。为了维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发，百度搜索将在近日对飓风算法进行升级，上线升级了飓风算法3.0。
　　本次算法升级主要针对跨领域采集以及站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的诠释。
　　以下详尽说明飓风算法3.0的相关规则。
　　问题一：同一品牌下，分公司的网站/智能小程序都采用相同的模板，是否会被判断为站群，被飓风算法3.0命中呢？
　　回答一：对于站群问题，算法会依照多个诱因综合判定，如页面排版相似度、同一主体下的站点/智能小程序数目、内容质量、内容稀缺性、内容相似度等等。
　　如果同一品牌下的网站/智能小程序，使用相同的页面排版，内容相似度较高，这类情况也有可能被判断为站群，存在被算法命中的风险。
　　问题示例：某品牌下多个地区分公司的智能小程序，使用相同的模板，内容质量低，相似度高。
　　

　　小程序使用一样模板
　　飓风算法3.0
　　问题二：这次飓风算法升级主要严打跨领域采集，那么同领域的采集会被算法覆盖吗？
　　回答二：此次飓风算法3.0的主要升级点是加大了对跨领域采集和站群问题的覆盖，但往年飓风算法对恶劣采集的控制仍然有效。百度搜索算法仍然在持续运行，控制伤害用户体验的违法问题，不会由于算法的升级或新增而造成旧算法停止。
　　问题三：如果站点/智能小程序中有当初跨领域采集的内容，为了防止被算法命中，需要将原先的跨领域内容删掉吗？
　　回答三：是的，如果站点/智能小程序中以前发布过与网站/智能小程序所属领域不相关的内容，我们建议您早日删掉跨领域的内容，深耕当前领域，生产满足用户需求的优质内容，提升网站/智能小程序的领域专注度。
　　问题四：在一个站点下设置不同主题的频道或目录，并发布不同领域的内容，这样会被算法命中吗？
　　回答四：在同一个站点下可以存在不同主题的频道或目录，但每位频道的内容都应该与该站点的领域定位相关，且专注于该领域，频道内容应是满足搜索用户需求的优质内容。
　　问题五：这次飓风算法升级主要严打跨领域采集，那么同领域的采集会被算法覆盖吗？
　　回答五：在同一个主体下可以存在不同主题的智能小程序，但每一个智能小程序都应该具有专业的资源、优质的内容、完善的功能，不存在站群行为，且内容应专注于该智能小程序所属的领域。

百度算法更新：飓风算法3.0详尽剖析、控制低质量采集和严打内容相似度高的站群

采集交流 • 优采云发表了文章 • 0 个评论 • 276 次浏览 • 2020-08-14 14:13 • 来自相关话题

　　最近好多同学给百度霸屏推广专家梁水才反馈百度排行不稳定，这就是百度要更新算法的前兆。2019年8月8日上午百度官方通告百度的飓风算法3.0上线了，，各位站长赶快看说明以后去自查吧：下面就是飓风算法3.0的详尽说明。
　　
　　为了维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发，百度搜索将在近日对飓风算法进行升级，上线飓风算法3.0。
　　本次百度算法升级主要针对跨领域采集以及站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的诠释。
　　以下详尽说明百度飓风算法3.0的相关规则。
　　一. 跨领域采集：
　　指站点/智能小程序为了获取更多流量，发布不属于站点/智能小程序领域范围的内容，通常这种内容采集自互联网，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/智能小程序的领域专注度不足，会有不同程度的限制凸显。
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　问题示例：美食类智能小程序发布篮球相关内容
　　
　　第二类：站点/智能小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：智能小程序内容涉及多个领域
　　
　　二. 站群问题：
　　指批量构造多个站点/智能小程序，获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个智能小程序复用同一模板，内容质量低、相似度高
　　
　　以上就是飓风算法3.0的相关说明，算法预计在8月内相继上线。请你们及时查收站内信、短信等渠道的提醒，积极自查完成整改，避免不必要的损失。查看全部

　　最近好多同学给百度霸屏推广专家梁水才反馈百度排行不稳定，这就是百度要更新算法的前兆。2019年8月8日上午百度官方通告百度的飓风算法3.0上线了，，各位站长赶快看说明以后去自查吧：下面就是飓风算法3.0的详尽说明。
　　

　　为了维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发，百度搜索将在近日对飓风算法进行升级，上线飓风算法3.0。
　　本次百度算法升级主要针对跨领域采集以及站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会依照违法问题的恶劣程度，酌情限制搜索结果的诠释。
　　以下详尽说明百度飓风算法3.0的相关规则。
　　一. 跨领域采集：
　　指站点/智能小程序为了获取更多流量，发布不属于站点/智能小程序领域范围的内容，通常这种内容采集自互联网，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/智能小程序的领域专注度不足，会有不同程度的限制凸显。
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　问题示例：美食类智能小程序发布篮球相关内容
　　

　　第二类：站点/智能小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：智能小程序内容涉及多个领域
　　

　　二. 站群问题：
　　指批量构造多个站点/智能小程序，获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个智能小程序复用同一模板，内容质量低、相似度高
　　

　　以上就是飓风算法3.0的相关说明，算法预计在8月内相继上线。请你们及时查收站内信、短信等渠道的提醒，积极自查完成整改，避免不必要的损失。

百度搜索将上线"飓风算法 3.0"

采集交流 • 优采云发表了文章 • 0 个评论 • 167 次浏览 • 2020-08-13 09:49 • 来自相关话题

　　百度官方对外宣布，近期将上线百度飓风算法3.0，主要严打对象就是跨领域采集以及站群问题，百度方面还表示飓风算法3.0将覆盖百度搜索下的PC站点、H5站点、小程序等内容，无死角的严打。现在采集站如此猖獗，治理下也好。
　　以下是百度公布的百度飓风算法3.0详尽严打说明
　　一. 跨领域采集：
　　指站点/小程序为了获取更多流量，发布不属于站点/小程序领域范围的内容，通常这种内容采集自互联网，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/小程序的领域专注度不足，会有不同程度的限制凸显。
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　问题示例：美食类小程序发布篮球相关内容
　　
　　第二类：站点/小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：小程序内容涉及多个领域
　　
　　二. 站群问题：
　　指批量构造多个站点/小程序，获取搜索流量的行为。站群中的站点/小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个小程序复用同一模板，内容质量低、相似度高
　　
　　从百度上线此次百度飓风算法3.0来看，磊哥认为，这波被严打的站数目应当不小，因为按照磊哥私下了解，现在好多站都是考采集别人内容来更新，有些站长根本就没有原创意识，在加上到现今百度都没有办法可以辨识哪些是第一时间发布的原创内容，这对被采集的网站很不公平，因此此次百度飓风算法3.0这一波严打出来，估计又一波站长要哭了。查看全部

　　百度官方对外宣布，近期将上线百度飓风算法3.0，主要严打对象就是跨领域采集以及站群问题，百度方面还表示飓风算法3.0将覆盖百度搜索下的PC站点、H5站点、小程序等内容，无死角的严打。现在采集站如此猖獗，治理下也好。
　　以下是百度公布的百度飓风算法3.0详尽严打说明
　　一. 跨领域采集：
　　指站点/小程序为了获取更多流量，发布不属于站点/小程序领域范围的内容，通常这种内容采集自互联网，内容质量及相关性低、对搜索用户价值低。对于这样的行为搜索会判断该站点/小程序的领域专注度不足，会有不同程度的限制凸显。
　　跨领域采集主要包括下边两类问题：
　　第一类：主站或主页的内容/标题/关键词/摘要等信息显示该站有明晰的领域或行业，但发布内容与该领域不相关，或相关性较低。
　　问题示例：美食类小程序发布篮球相关内容
　　

　　第二类：站点/小程序没有明晰的领域或行业，内容涉及多个领域或行业，领域模糊、领域专注度低。
　　问题示例：小程序内容涉及多个领域
　　

　　二. 站群问题：
　　指批量构造多个站点/小程序，获取搜索流量的行为。站群中的站点/小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板，难以满足搜索用户的需求。
　　问题示例：多个小程序复用同一模板，内容质量低、相似度高
　　

　　从百度上线此次百度飓风算法3.0来看，磊哥认为，这波被严打的站数目应当不小，因为按照磊哥私下了解，现在好多站都是考采集别人内容来更新，有些站长根本就没有原创意识，在加上到现今百度都没有办法可以辨识哪些是第一时间发布的原创内容，这对被采集的网站很不公平，因此此次百度飓风算法3.0这一波严打出来，估计又一波站长要哭了。

百度搜索引擎飓风算法你了解了吗？

采集交流 • 优采云发表了文章 • 0 个评论 • 155 次浏览 • 2020-08-13 00:36 • 来自相关话题

　　为了营造良好的搜索内容生态，保护搜索用户的浏览体验，百度发布了飓风算法，旨在严厉打击恶劣采集行为和站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会根据违规问题的恶劣程度，酌情限制搜索结果的展现。对于第一次违规的站点，改好后接触限制展现的周期为一个月；对于第二次违规的站点，百度将不予释放。
飓风算法1.0
2017年7月4日，百度搜索资源平台发布公告推出飓风算法，旨在严厉打击以恶劣采集为内容主要来源的网站，同时百度搜索将从索引库中彻底清除恶劣采集链接，给优质原创内容提供更多展示机会，促进搜索生态良性发展。
　　飓风算法会例行产出惩罚数据，同时会按照情况随时调整迭代，体现了百度搜索对恶劣采集的零容忍。优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在百度搜索资源平台的反馈中心进行反馈。
　　飓风算法2.0
　　2018年9月13日，百度对飓风算法进行升级，发布飓风算法2.0，主要严打采集痕迹显著、内容拼接、站点存在大量采集内容、跨领域采集等五类采集行为。飓风算法2.0致力保障搜索用户的浏览体验，保护搜索生态的健康发展、对于违法网站，百度搜索会根据问题的恶劣程度有相应的限制搜索诠释的处理。
　　对于第一次违法的站点，改好后解除限制诠释的周期为1个月；
　　对于第二次违法的站点，百度搜索将不予释放。
　　飓风算法3.0
　　2019年8月8日，百度搜索将飓风算法升级到飓风算法3.0，主要严打百度搜索下的PC站点、H5站点、智能小程序存在的跨领域采集及批量构造站群获取搜索流量的行为。飓风算法3.0致力维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发。查看全部

　　为了营造良好的搜索内容生态，保护搜索用户的浏览体验，百度发布了飓风算法，旨在严厉打击恶劣采集行为和站群问题，将覆盖百度搜索下的PC站点、H5站点、智能小程序等内容。对于算法覆盖的站点/智能小程序，将会根据违规问题的恶劣程度，酌情限制搜索结果的展现。对于第一次违规的站点，改好后接触限制展现的周期为一个月；对于第二次违规的站点，百度将不予释放。
飓风算法1.0
2017年7月4日，百度搜索资源平台发布公告推出飓风算法，旨在严厉打击以恶劣采集为内容主要来源的网站，同时百度搜索将从索引库中彻底清除恶劣采集链接，给优质原创内容提供更多展示机会，促进搜索生态良性发展。
　　飓风算法会例行产出惩罚数据，同时会按照情况随时调整迭代，体现了百度搜索对恶劣采集的零容忍。优质原创站点如发觉站点索引量急剧降低且流量急剧下降现象，可在百度搜索资源平台的反馈中心进行反馈。
　　飓风算法2.0
　　2018年9月13日，百度对飓风算法进行升级，发布飓风算法2.0，主要严打采集痕迹显著、内容拼接、站点存在大量采集内容、跨领域采集等五类采集行为。飓风算法2.0致力保障搜索用户的浏览体验，保护搜索生态的健康发展、对于违法网站，百度搜索会根据问题的恶劣程度有相应的限制搜索诠释的处理。
　　对于第一次违法的站点，改好后解除限制诠释的周期为1个月；
　　对于第二次违法的站点，百度搜索将不予释放。
　　飓风算法3.0
　　2019年8月8日，百度搜索将飓风算法升级到飓风算法3.0，主要严打百度搜索下的PC站点、H5站点、智能小程序存在的跨领域采集及批量构造站群获取搜索流量的行为。飓风算法3.0致力维护健康的联通生态，保障用户体验，保证优质站点/智能小程序才能获得合理的流量分发。

信息采集系统的技术实现

采集交流 • 优采云发表了文章 • 0 个评论 • 371 次浏览 • 2020-08-12 21:53 • 来自相关话题

　　最近公司要做个页面信息采集的东西，没哪些好的思路，所以在网上找了点东西，学习一下。
　　信息采集系统指的是按标准格式采集指定网路信息，同搜索引擎的区别在于其采集的目的性更强，采集源范围也比较小。这里简单介绍一下信息采集系统实现上的几个关键问题:
　　1) 采集网页数据
　　VC,Java,VB的网路通信功能都足够实现信息采集，VC中的Get/Post方法可采集网页信息，也可以直接用socket形式采集，但通常用前一种模式，另外为了提升采集效率都采用多线程技术，在网上的一些Spider程序都是多线程的,可以借鉴.
　　2) 如何按关键字来信息
　　信息采集的一大特征是按多个关键字将信息分拆下来，例如供求信息中的商机标题、联系人、电话、Email、内容等，实现时须要事先定义好这种关键字，然后在网页中搜索，将夹在两个关键字当中的信息采集出来，另外还要注意，网页中的许多关键字是收录空格的，空格数目也不能确定，例如"邮件",这就要求在查找关键字时要把关键字按单个汉字拆开来匹配，遇到中间的空格要跳过去.这一步实现了，信息都会变的十分有规则，也就可以导出本地库了.
　　3) 网页中的链结获取算法
　　了解HTML的应当清楚，网页中的链结都是通过的标签定义的，但也会分好多情况，例如: 这是常见的链结格式，但要注意采集出来的链结可能是完整的，也可能是相对路径,要分别处理；用单冒号分隔的，所以用算法获取链结的时侯要按照双引号和单冒号两种标记来分隔；通过javascript的函数处理链结，算法上就麻烦了许多。
　　4) 无效数据的过滤
　　即使通过关键字的形式抛开了许多广告信息，但在关键字信息中也会有不少无效数据，包括一些信息开头的空格
　　5) 特定数据的获取算法
　　Email,电话等数据符合一定的规范，一般可以用一些算法提取下来，也可以用正则表达式技术来获取，在网路上有不少这种算法.在信息采集中，Email和电话等关键信息是比较分散的，需要用提取算法把这种信息提取下来放到正确的位置.这是十分有必要的，因为信息采集系统常常会有短信群发的功能.
　　信息采集的整个流程可总结如下:
　　a) 首先，获取网页的完整信息
　　b) 用算法获取网页中的正文信息，即抛弃HTML的标签文本
　　c) 去除多余的空行
　　d) 按定义好的关键字将信息分隔开
　　e) 对信息进行无效数据过滤
　　f) 信息入本地库
　　g) 获取网页中的链结，对该链结从a)步骤开始重复,但注意网页中的许多链结是广告或无效的，因此要事先定义好一些链结关键字，只有收录关键字的链结才处理查看全部

　　最近公司要做个页面信息采集的东西，没哪些好的思路，所以在网上找了点东西，学习一下。
　　信息采集系统指的是按标准格式采集指定网路信息，同搜索引擎的区别在于其采集的目的性更强，采集源范围也比较小。这里简单介绍一下信息采集系统实现上的几个关键问题:
　　1) 采集网页数据
　　VC,Java,VB的网路通信功能都足够实现信息采集，VC中的Get/Post方法可采集网页信息，也可以直接用socket形式采集，但通常用前一种模式，另外为了提升采集效率都采用多线程技术，在网上的一些Spider程序都是多线程的,可以借鉴.
　　2) 如何按关键字来信息
　　信息采集的一大特征是按多个关键字将信息分拆下来，例如供求信息中的商机标题、联系人、电话、Email、内容等，实现时须要事先定义好这种关键字，然后在网页中搜索，将夹在两个关键字当中的信息采集出来，另外还要注意，网页中的许多关键字是收录空格的，空格数目也不能确定，例如"邮件",这就要求在查找关键字时要把关键字按单个汉字拆开来匹配，遇到中间的空格要跳过去.这一步实现了，信息都会变的十分有规则，也就可以导出本地库了.
　　3) 网页中的链结获取算法
　　了解HTML的应当清楚，网页中的链结都是通过的标签定义的，但也会分好多情况，例如: 这是常见的链结格式，但要注意采集出来的链结可能是完整的，也可能是相对路径,要分别处理；用单冒号分隔的，所以用算法获取链结的时侯要按照双引号和单冒号两种标记来分隔；通过javascript的函数处理链结，算法上就麻烦了许多。
　　4) 无效数据的过滤
　　即使通过关键字的形式抛开了许多广告信息，但在关键字信息中也会有不少无效数据，包括一些信息开头的空格
　　5) 特定数据的获取算法
　　Email,电话等数据符合一定的规范，一般可以用一些算法提取下来，也可以用正则表达式技术来获取，在网路上有不少这种算法.在信息采集中，Email和电话等关键信息是比较分散的，需要用提取算法把这种信息提取下来放到正确的位置.这是十分有必要的，因为信息采集系统常常会有短信群发的功能.
　　信息采集的整个流程可总结如下:
　　a) 首先，获取网页的完整信息
　　b) 用算法获取网页中的正文信息，即抛弃HTML的标签文本
　　c) 去除多余的空行
　　d) 按定义好的关键字将信息分隔开
　　e) 对信息进行无效数据过滤
　　f) 信息入本地库
　　g) 获取网页中的链结，对该链结从a)步骤开始重复,但注意网页中的许多链结是广告或无效的，因此要事先定义好一些链结关键字，只有收录关键字的链结才处理

2018百度飓风算法2.0剖析，采集不行了？

采集交流 • 优采云发表了文章 • 0 个评论 • 276 次浏览 • 2020-08-11 01:38 • 来自相关话题

　　导读：
　　百度将在9月下旬推出飓风算法2.0，打击低质量站点，细化四类采集行为，进一步提高用户阅读浏览体验，保护原创内容。
　　一、下面回顾一下飓风算法
　　百度在2017年7月，推出飓风算法的内容
　　打击目标：大量进行恶劣采集低质量内容的网站。打击通过大量采集的行为快速降低内容，以推动收录的做法，以保护原创内容。净化搜索引擎索引。
　　主要是针对站群的严打，批量群发，利用工具批量采集并发布的站点。
　　
　　2018百度飓风算法2.0来了
　　二、飓风算法的主要内容
　　飓风算法主要收录以下四类恶劣采集行为
　　
　　2018百度飓风算法2.0剖析
　　1、采集痕迹显著
　　详细说明：站点存在大量从其他站点或公众号采集、搬运而至的内容，信息未经整合，排版混乱，部分功能缺位或文章可读性差，有显著采集痕迹，用户阅读体会太差。
　　直接搬运第三方平台的内容，无排版，用户体验差
　　2、内容拼接
　　详细说明：采集多篇不同文章进行拼接，整体内容未产生完整逻辑，存在阅读不通顺、文章不连贯等问题，无法满足用户需求。
　　内容拼接，无逻辑，无价值
　　3、站点存在大量采集内容
　　详细说明：网站内容下多数内容均为采集，网站自身无内容生产力或内容生产能力较差，网站内容质量较低。
　　大量采集，也就是飓风算法1.0严打的目标
　　4、跨领域采集查看全部

　　导读：
　　百度将在9月下旬推出飓风算法2.0，打击低质量站点，细化四类采集行为，进一步提高用户阅读浏览体验，保护原创内容。
　　一、下面回顾一下飓风算法
　　百度在2017年7月，推出飓风算法的内容
　　打击目标：大量进行恶劣采集低质量内容的网站。打击通过大量采集的行为快速降低内容，以推动收录的做法，以保护原创内容。净化搜索引擎索引。
　　主要是针对站群的严打，批量群发，利用工具批量采集并发布的站点。
　　

　　2018百度飓风算法2.0来了
　　二、飓风算法的主要内容
　　飓风算法主要收录以下四类恶劣采集行为
　　

　　2018百度飓风算法2.0剖析
　　1、采集痕迹显著
　　详细说明：站点存在大量从其他站点或公众号采集、搬运而至的内容，信息未经整合，排版混乱，部分功能缺位或文章可读性差，有显著采集痕迹，用户阅读体会太差。
　　直接搬运第三方平台的内容，无排版，用户体验差
　　2、内容拼接
　　详细说明：采集多篇不同文章进行拼接，整体内容未产生完整逻辑，存在阅读不通顺、文章不连贯等问题，无法满足用户需求。
　　内容拼接，无逻辑，无价值
　　3、站点存在大量采集内容
　　详细说明：网站内容下多数内容均为采集，网站自身无内容生产力或内容生产能力较差，网站内容质量较低。
　　大量采集，也就是飓风算法1.0严打的目标
　　4、跨领域采集

美团-百亿用户行为数据，美团点评如何实现秒级转化剖析

采集交流 • 优采云发表了文章 • 0 个评论 • 203 次浏览 • 2020-08-09 22:23 • 来自相关话题

　　用户行为剖析是数据剖析中十分重要的一项内容，在统计活跃用户，分析存留和转化率，改进产品体验、推动用户下降等领域有重要作用。美团点评每晚搜集的用户行为日志达到数百亿条，如何在海量数据集上实现对用户行为的快速灵活剖析，成为一个巨大的挑战。为此，我们提出并实现了一套面向海量数据的用户行为剖析解决方案，将单次剖析的历时从小时级增加到秒级，极大的改善了剖析体验，提升了剖析人员的工作效率。
　　本文以有序漏斗的需求为例，详细介绍了问题剖析和思路设计，以及工程实现和优化的全过程。本文按照2017年12月ArchSummit北京站讲演整理而成，略有删改。
　　问题剖析
　　下图描述了转化率剖析中一个常见场景，对访问路径“首页-搜索-菜品-下单-支付”做剖析，统计根据次序访问每层节点的用户数，得到访问过程的转化率。
　　统计上有一些维度约束，比如日期，时间窗口（整个访问过程在规定时间内完成，否则统计无效），城市或操作系统等，因此这也是一个典型的OLAP剖析需求。此外，每个访问节点可能还有埋点属性，比如搜索页上的关键词属性，支付页的价钱属性等。从结果上看，用户数是逐层收敛的，在可视化上构成了一个漏斗的形状，因此这一类需求又称之为“有序漏斗”。
　　
　　这类剖析一般是基于用户行为的日志表上进行的，其中每行数据记录了某个用户的一次风波的相关信息，包括发生时间、用户ID、事件类型以及相关属性和维度信息等。现在业界流行的一般有两种解决思路。
　　基于Join的SQL
　　select count (distinct t1.id1), count (distinct t2.id2), count (distinct t3.id3)
from (select uuid id1, timestamp ts1 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = '首页') t1
left join
(select uuid id2, timestamp ts2 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = '搜索' and keyword = '中餐') t2
on t1.id1 = t2.id2 and t1.ts1 < t2.ts2 and t2.ts2 - t1.ts1 < 3600
left join
(select uuid id3, timestamp ts3 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = '菜品') t3
on t1.id1 = t3.id3 and t2.ts2 < t3.ts3 and t1.ts1 < t3.ts3 and t3.ts3 - t1.ts1 < 3600
　　基于UDAF(User Defined Aggregate Function)的SQL
　　select
funnel(timestamp, 3600, '首页') stage0,
funnel(timestamp, 3600, '首页', '搜索', keyword = '中餐') stage1, funnel(timestamp, 3600, '首页', '搜索', '菜品') stage2
from data
where timestamp >= 1510329600 and timestamp < 1510416000 group by uuid
　　对于第一种解法，最大的问题是须要做大量join操作，而且关联条件不仅ID的等值联接之外，还有时间戳的非等值联接。当数据规模不大时，这种用法没有哪些问题。但随着数据规模越来越大，在几百亿的数据集上做join操作的代价十分高，甚至早已不可行。
　　第二种解法有了改进，通过聚合的方法防止了join操作，改为对聚合后的数据通过UDAF做数据匹配。这种解法的问题是没有足够的筛选手段，这意味着几亿用户对应的几亿条数据都须要遍历筛选，在性能上也无法接受。
　　那么这个问题的难点在那里？为什么上述两个解法在实际应用中显得越来越不可行？主要问题有如此几点。
　　事件匹配有序列关系。如果没有序列关系就十分容易，通过集合的交集并集运算即可。时间窗口约束。这意味着风波匹配的时侯还有最大宽度的约束，所以匹配算法的复杂度会进一步提高。属性和维度的需求。埋点SDK提供给各个业务线，每个页面具体埋哪些内容，完全由业务决定，而且取值是完全开放的，因此目前属性基数早已达到了百万量级。同时还有几十个维度用于筛选，有些维度的基数也很高。数据规模。目前每晚搜集到的用户行为日志有几百亿条，对资源和效率都是很大的挑战。
　　基于上述难点和实际需求的剖析，可以总结出几个实际困难，称之为“坏消息”。
　　漏斗定义完全随机。不同剖析需求对应的漏斗定义完全不同，包括具体收录什么风波，这些风波的次序等，这意味着完全的预估算是不可能的。附加OLAP需求。除了路径匹配之外，还须要满足属性和维度上一些OLAP的下卷下钻的需求。规模和性能的矛盾。一方面有几百亿条数据的超大规模，另一方面又追求秒级响应的交互式剖析效率，这是一个十分激烈的矛盾冲突。
　　另一方面，还是才能从问题的剖析中得到一些“好消息”, 这些也是在设计和优化中可以借助的点。
　　计算需求十分单一。这个需求最终须要的就是去重计数的结果，这意味着不需要一个大而全的数据引擎，在设计上有很大的优化空间。并发需求不高。漏斗剖析这类需求通常由营运或则产品朋友自动递交，查询结果用于辅助决策，因此并发度不会很高，这样可以在一次查询时充分调动整个集群的资源。数据不可变。所谓日志即事实，用户行为的日志一旦搜集进来，除非bug等诱因通常不会再更新，基于此可以考虑一些索引类的手段来加速查询。实际业务特性。最后是对实际业务观察得出的推论，整个漏斗收敛特别快，比如首页是几千万甚至上亿的结果，到了最上层节点可能只有几千，因此可以考虑一些快速过滤的方式来增加查询估算和数据IO的压力。
　　如果用一句话总结这个问题的核心本质，那就是“多维剖析和序列匹配基础上的去重计数”。具体来说，最终结果就是每层节点符合条件的UUID有多少个，也就是去重后的计数值。这里UUID要符合两个条件，一是符合维度的筛选，二是风波序列能匹配漏斗的定义。去重计数是相对好解的问题，那么问题的重点就是假如快速有效的做维度筛选和序列匹配。
　　算法设计
　　下图是部份行为日志的数据，前面早已提及，直接在这样的数据上做维度筛选和序列匹配都是太困难的，因此考虑怎样对数据做预处理，以提升执行效率。
　　
　　很自然的看法是基于UUID做聚合，根据时间排序，这也是上面提及的UDAF的思路，如下图所示。这里的问题是没有过滤的手段，每个UUID都须要遍历，成本很高。
　　
　　再进一步，为了更快更方便的做过滤，考虑把维度和属性抽下来构成Key，把对应的UUID和时间戳组织上去构成value。如果有搜索引擎经验的话，很容易看下来这特别象倒排的思路。
　　
　　这个数据结构还是存在问题。比如说要领到某个Key对应的UUID列表时，需要遍历所有的value才可以。再例如做时间序列的匹配，这里的时间戳信息被打散了，实际处理上去更困难。因此还可以在此基础上再优化。
　　可以看见优化后的Key内容保持不变，value被拆成了UUID集合和时间戳序列集合这两部份，这样的用处有两点：一是可以做快速的UUID筛选，通过Key对应的UUID集合运算就可以达成；二是在做时间序列匹配时，对于匹配算法和IO效率都是太友好的，因为时间戳是统一连续储存的，在处理时很方便。
　　
　　基于上述的思路，最终的索引格式如下图所示。这里每位色块对应了一个索引的block，其中包括三部份内容，一是属性名和取值；二是对应的UUID集合，数据通过bitmap格式储存，在快速筛选时效率很高；三是每位UUID对应的时间戳序列，用于序列匹配，在储存时使用差值或变长编码等一些编码压缩手段提升储存效率。
　　
　　在实际应用中，通常会同时指定多个属性或维度条件，通过AND或OR的条件组织上去。这在处理时也很简单，通过句型剖析可以把查询条件转为一颗抒发树，树上的叶子节点对应的是单个索引数据，非叶子节点就是AND或OR类型的索引，通过并集或交集的思路做集合筛选和序列匹配即可。
　　上面解决的是维度筛选的问题，另一个序列匹配的问题相对简单好多。基于上述的数据格式，读取UUID对应的每位风波的时间戳序列，检查是否能依照次序匹配即可。需要注意的是，由于存在最大时间窗口的限制，匹配算法中须要考虑回溯的情况，下图展示了一个具体的反例。在第一次匹配过程中，由于第一层节点的起始时间戳为100，并且时间窗口为10，所以第二层节点的时间戳101符合要求，但第三层节点的时间戳112超过了最大截至时间戳110，因此只能匹配两层节点，但通过回溯以后，第二次可以完整的匹配三层节点。
　　
　　通过上述的讨论和设计，完整的算法如下图所示。其中的核心要点是先通过UUID集合做快速的过滤，再对过滤后的UUID分别做时间戳的匹配，同时上一层节点输出也作为下一层节点的输入，由此达到快速过滤的目的。
　　
　　工程实现和优化
　　有了明晰的算法思路，接下来再瞧瞧工程怎么落地。
　　首先明晰的是须要一个分布式的服务，主要包括插口服务、计算框架和文件系统三部份。其中插口服务用于接收查询恳求，分析恳求并生成实际的查询逻辑；计算框架用于分布式的执行查询逻辑；文件系统储存实际的索引数据，用于响应具体的查询。
　　这里简单谈一下构架选型的方法论，主要有四点：简单、成熟、可控、可调。
　　1.简单。不管是构架设计，还是逻辑复杂度和运维成本，都希望尽可能简单。这样的系统可以快速落地，也比较容易掌控。
　　2.成熟。评估一个系统是否成熟有很多方面，比如社区是否活跃，项目是否有明晰的发展规划并能持续落地推动？再例如业界有没有足够多的成功案例，实际应用疗效怎样？一个成熟的系统在落地时的问题相对较少，出现问题也能参考其它案例比较容易的解决，从而很大程度上增加了整体系统的风险。
　　3.可控。如果一个系统持续保持黑盒的状态，那只能是被动的使用，出了问题也很难解决。反之现今有很多的开源项目，可以领到完整的代码，这样就可以有更强的掌控力，不管是问题的定位解决，还是更改、定制、优化等，都更容易实现。
　　4.可调。一个设计良好的系统，在构架上一定是分层和模块化的，且有合理的具象。在这样的构架下，针对其中一些逻辑做进一步订制或替换时就比较便捷，不需要对代码做大范围的改动，降低了改建成本和出错机率。
　　基于上述的选型思路，服务的三个核心构架分别选择了Spring，Spark和Alluxio。其中Spring的应用十分广泛，在实际案例和文档上都十分丰富，很容易落地实现；Spark本身是一个特别优秀的分布式估算框架，目前团队对Spark有太强的掌控力，调优经验也太丰富，这样只须要专注在估算逻辑的开发即可；Alluxio相对HDFS或HBase来说愈发轻量，同时支持包括显存在内的多层异构储存，这些特点可能会在后续优化中得到借助。
　　在具体的布署形式上，Spring Server单独启动，Spark和Alluxio都采用Standalone模式，且两个服务的slave节点在化学机上共同布署。Spring进程中通过SparkContext维持一个Spark长作业，这样接到查询恳求后可以快速递交逻辑，避免了申请节点资源和启动Executor的时间开支。
　　
　　上述构架通过对数据的合理分区和资源的并发借助，可以实现一个查询恳求在几分钟内完成。相对原先的几个小时有了很大改观，但还是不能满足交互式剖析的需求，因此还须要做进一步的优化。
　　本地化调度。存储和估算分离的构架中这是常见的一种优化手段。以下图为例，某个节点上task读取的数据在另外节点上，这样就形成了跨机器的访问，在并发度很大时对网路IO带来了很大压力。如果通过本地化调度，把估算调度到数据的同一节点上执行，就可以避免这个问题。实现本地化调度的前提是有收录数据位置信息的元数据，以及估算框架的支持，这两点在Alluxio和Spark中都很容易做到。
　　
　　内存映射。常规实现中，数据须要从c盘拷贝到JVM的显存中，这会带来两个问题。一是拷贝的时间太长，几百MB的数据对CPU时间的占用特别可观；二是JVM的显存压力很大，带来GC等一系列的问题。通过mmap等显存映射的方法，数据可以直接读取，不需要再进JVM，这样就挺好的解决了上述的两个问题。
　　
　　Unsafe调用。由于大部分的数据通过ByteBuffer访问，这里带来的额外开支对最终性能也有很大影响。Java lib中的ByteBuffer访问插口是十分安全的，但安全也意味着低效，一次访问会有很多次的边界检测，而且多层函数的调用也有好多额外开支。如果访问逻辑相对简单，对数据边界控制太有信心的情况下，可以直接调用native方式，绕过上述的一系列额外检测和函数调用。这种用法在好多系统中也被广泛采用，比如Presto和Spark都有类似的优化方式。
　　
　　下图是对上述优化过程的对比展示。请注意横轴是对数轴，也就是说图中每格代表了一个数据级的优化。从图中可以见到，常规的UDAF方案一次查询须要花几千秒的时间，经过索引结构的设计、本地化调度、内存映射和Unsafe调用的优化过程以后，一次查询只须要几秒的时间，优化了3~4个数据级，完全达到了交互式剖析的需求。
　　
　　这里想多谈几句对这个优化结果的想法。主流的大数据生态系统都是基于JVM系语言开发的，包括Hadoop生态的Java，Spark的Scala等等。由于JVM执行机制带来的不可避开的性能损失，现在也有一些基于C++或其它语言开发的系统，有人声称在性能上有几倍甚至几十倍的提高。这种尝试其实挺好，但从里面的优化过程来看，整个系统主要是通过更高效的数据结构和更合理的系统构架达到了3个数量级的性能提高，语言特点只是在最后一步优化中有一定疗效，在整体占比中并不多。
　　有一句鱼汤说“以大多数人的努力程度而言，根本没有到拼天赋的地步”，套用在这里就是“以大多数系统的构架设计而言，根本没有到拼语言性能的地步”。语言本身不是门槛，代码你们就会写，但整个系统的构架是否合理，数据结构是否足够高效，这些设计依赖的是对问题本质的理解和工程上的权衡，这才是更审视设计能力和经验的地方。
　　总结
　　上述方案目前在美团点评内部早已实际落地，稳定运行超过半年以上。每天的数据有几百亿条，活跃用户达到了上亿的量级，埋点属性超过了百万，日均查询量几百次，单次查询的TP95时间大于5秒，完全才能满足交互式剖析的预期。
　　
　　整个方案从业务需求的实际理解和深入剖析出发，抽象出了维度筛选、序列匹配和去重计数三个核心问题，针对每位问题都给出了合理高效的解决方案，其中结合实际数据特性对数据结构的优化是方案的最大亮点。在方案的实际工程落地和优化过程中，秉持“简单、成熟、可控、可调”的选型原则，快速落地实现了高效构架，通过一系列的优化手段和方法，最终达成了3~4个数量级的性能提高。查看全部

　　用户行为剖析是数据剖析中十分重要的一项内容，在统计活跃用户，分析存留和转化率，改进产品体验、推动用户下降等领域有重要作用。美团点评每晚搜集的用户行为日志达到数百亿条，如何在海量数据集上实现对用户行为的快速灵活剖析，成为一个巨大的挑战。为此，我们提出并实现了一套面向海量数据的用户行为剖析解决方案，将单次剖析的历时从小时级增加到秒级，极大的改善了剖析体验，提升了剖析人员的工作效率。
　　本文以有序漏斗的需求为例，详细介绍了问题剖析和思路设计，以及工程实现和优化的全过程。本文按照2017年12月ArchSummit北京站讲演整理而成，略有删改。
　　问题剖析
　　下图描述了转化率剖析中一个常见场景，对访问路径“首页-搜索-菜品-下单-支付”做剖析，统计根据次序访问每层节点的用户数，得到访问过程的转化率。
　　统计上有一些维度约束，比如日期，时间窗口（整个访问过程在规定时间内完成，否则统计无效），城市或操作系统等，因此这也是一个典型的OLAP剖析需求。此外，每个访问节点可能还有埋点属性，比如搜索页上的关键词属性，支付页的价钱属性等。从结果上看，用户数是逐层收敛的，在可视化上构成了一个漏斗的形状，因此这一类需求又称之为“有序漏斗”。
　　

　　这类剖析一般是基于用户行为的日志表上进行的，其中每行数据记录了某个用户的一次风波的相关信息，包括发生时间、用户ID、事件类型以及相关属性和维度信息等。现在业界流行的一般有两种解决思路。
　　基于Join的SQL
　　select count (distinct t1.id1), count (distinct t2.id2), count (distinct t3.id3)
from (select uuid id1, timestamp ts1 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = '首页') t1
left join
(select uuid id2, timestamp ts2 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = '搜索' and keyword = '中餐') t2
on t1.id1 = t2.id2 and t1.ts1 < t2.ts2 and t2.ts2 - t1.ts1 < 3600
left join
(select uuid id3, timestamp ts3 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = '菜品') t3
on t1.id1 = t3.id3 and t2.ts2 < t3.ts3 and t1.ts1 < t3.ts3 and t3.ts3 - t1.ts1 < 3600
　　基于UDAF(User Defined Aggregate Function)的SQL
　　select
funnel(timestamp, 3600, '首页') stage0,
funnel(timestamp, 3600, '首页', '搜索', keyword = '中餐') stage1, funnel(timestamp, 3600, '首页', '搜索', '菜品') stage2
from data
where timestamp >= 1510329600 and timestamp < 1510416000 group by uuid
　　对于第一种解法，最大的问题是须要做大量join操作，而且关联条件不仅ID的等值联接之外，还有时间戳的非等值联接。当数据规模不大时，这种用法没有哪些问题。但随着数据规模越来越大，在几百亿的数据集上做join操作的代价十分高，甚至早已不可行。
　　第二种解法有了改进，通过聚合的方法防止了join操作，改为对聚合后的数据通过UDAF做数据匹配。这种解法的问题是没有足够的筛选手段，这意味着几亿用户对应的几亿条数据都须要遍历筛选，在性能上也无法接受。
　　那么这个问题的难点在那里？为什么上述两个解法在实际应用中显得越来越不可行？主要问题有如此几点。
　　事件匹配有序列关系。如果没有序列关系就十分容易，通过集合的交集并集运算即可。时间窗口约束。这意味着风波匹配的时侯还有最大宽度的约束，所以匹配算法的复杂度会进一步提高。属性和维度的需求。埋点SDK提供给各个业务线，每个页面具体埋哪些内容，完全由业务决定，而且取值是完全开放的，因此目前属性基数早已达到了百万量级。同时还有几十个维度用于筛选，有些维度的基数也很高。数据规模。目前每晚搜集到的用户行为日志有几百亿条，对资源和效率都是很大的挑战。
　　基于上述难点和实际需求的剖析，可以总结出几个实际困难，称之为“坏消息”。
　　漏斗定义完全随机。不同剖析需求对应的漏斗定义完全不同，包括具体收录什么风波，这些风波的次序等，这意味着完全的预估算是不可能的。附加OLAP需求。除了路径匹配之外，还须要满足属性和维度上一些OLAP的下卷下钻的需求。规模和性能的矛盾。一方面有几百亿条数据的超大规模，另一方面又追求秒级响应的交互式剖析效率，这是一个十分激烈的矛盾冲突。
　　另一方面，还是才能从问题的剖析中得到一些“好消息”, 这些也是在设计和优化中可以借助的点。
　　计算需求十分单一。这个需求最终须要的就是去重计数的结果，这意味着不需要一个大而全的数据引擎，在设计上有很大的优化空间。并发需求不高。漏斗剖析这类需求通常由营运或则产品朋友自动递交，查询结果用于辅助决策，因此并发度不会很高，这样可以在一次查询时充分调动整个集群的资源。数据不可变。所谓日志即事实，用户行为的日志一旦搜集进来，除非bug等诱因通常不会再更新，基于此可以考虑一些索引类的手段来加速查询。实际业务特性。最后是对实际业务观察得出的推论，整个漏斗收敛特别快，比如首页是几千万甚至上亿的结果，到了最上层节点可能只有几千，因此可以考虑一些快速过滤的方式来增加查询估算和数据IO的压力。
　　如果用一句话总结这个问题的核心本质，那就是“多维剖析和序列匹配基础上的去重计数”。具体来说，最终结果就是每层节点符合条件的UUID有多少个，也就是去重后的计数值。这里UUID要符合两个条件，一是符合维度的筛选，二是风波序列能匹配漏斗的定义。去重计数是相对好解的问题，那么问题的重点就是假如快速有效的做维度筛选和序列匹配。
　　算法设计
　　下图是部份行为日志的数据，前面早已提及，直接在这样的数据上做维度筛选和序列匹配都是太困难的，因此考虑怎样对数据做预处理，以提升执行效率。
　　

　　很自然的看法是基于UUID做聚合，根据时间排序，这也是上面提及的UDAF的思路，如下图所示。这里的问题是没有过滤的手段，每个UUID都须要遍历，成本很高。
　　

　　再进一步，为了更快更方便的做过滤，考虑把维度和属性抽下来构成Key，把对应的UUID和时间戳组织上去构成value。如果有搜索引擎经验的话，很容易看下来这特别象倒排的思路。
　　

　　这个数据结构还是存在问题。比如说要领到某个Key对应的UUID列表时，需要遍历所有的value才可以。再例如做时间序列的匹配，这里的时间戳信息被打散了，实际处理上去更困难。因此还可以在此基础上再优化。
　　可以看见优化后的Key内容保持不变，value被拆成了UUID集合和时间戳序列集合这两部份，这样的用处有两点：一是可以做快速的UUID筛选，通过Key对应的UUID集合运算就可以达成；二是在做时间序列匹配时，对于匹配算法和IO效率都是太友好的，因为时间戳是统一连续储存的，在处理时很方便。
　　

　　基于上述的思路，最终的索引格式如下图所示。这里每位色块对应了一个索引的block，其中包括三部份内容，一是属性名和取值；二是对应的UUID集合，数据通过bitmap格式储存，在快速筛选时效率很高；三是每位UUID对应的时间戳序列，用于序列匹配，在储存时使用差值或变长编码等一些编码压缩手段提升储存效率。
　　

　　在实际应用中，通常会同时指定多个属性或维度条件，通过AND或OR的条件组织上去。这在处理时也很简单，通过句型剖析可以把查询条件转为一颗抒发树，树上的叶子节点对应的是单个索引数据，非叶子节点就是AND或OR类型的索引，通过并集或交集的思路做集合筛选和序列匹配即可。
　　上面解决的是维度筛选的问题，另一个序列匹配的问题相对简单好多。基于上述的数据格式，读取UUID对应的每位风波的时间戳序列，检查是否能依照次序匹配即可。需要注意的是，由于存在最大时间窗口的限制，匹配算法中须要考虑回溯的情况，下图展示了一个具体的反例。在第一次匹配过程中，由于第一层节点的起始时间戳为100，并且时间窗口为10，所以第二层节点的时间戳101符合要求，但第三层节点的时间戳112超过了最大截至时间戳110，因此只能匹配两层节点，但通过回溯以后，第二次可以完整的匹配三层节点。
　　

　　通过上述的讨论和设计，完整的算法如下图所示。其中的核心要点是先通过UUID集合做快速的过滤，再对过滤后的UUID分别做时间戳的匹配，同时上一层节点输出也作为下一层节点的输入，由此达到快速过滤的目的。
　　

　　工程实现和优化
　　有了明晰的算法思路，接下来再瞧瞧工程怎么落地。
　　首先明晰的是须要一个分布式的服务，主要包括插口服务、计算框架和文件系统三部份。其中插口服务用于接收查询恳求，分析恳求并生成实际的查询逻辑；计算框架用于分布式的执行查询逻辑；文件系统储存实际的索引数据，用于响应具体的查询。
　　这里简单谈一下构架选型的方法论，主要有四点：简单、成熟、可控、可调。
　　1.简单。不管是构架设计，还是逻辑复杂度和运维成本，都希望尽可能简单。这样的系统可以快速落地，也比较容易掌控。
　　2.成熟。评估一个系统是否成熟有很多方面，比如社区是否活跃，项目是否有明晰的发展规划并能持续落地推动？再例如业界有没有足够多的成功案例，实际应用疗效怎样？一个成熟的系统在落地时的问题相对较少，出现问题也能参考其它案例比较容易的解决，从而很大程度上增加了整体系统的风险。
　　3.可控。如果一个系统持续保持黑盒的状态，那只能是被动的使用，出了问题也很难解决。反之现今有很多的开源项目，可以领到完整的代码，这样就可以有更强的掌控力，不管是问题的定位解决，还是更改、定制、优化等，都更容易实现。
　　4.可调。一个设计良好的系统，在构架上一定是分层和模块化的，且有合理的具象。在这样的构架下，针对其中一些逻辑做进一步订制或替换时就比较便捷，不需要对代码做大范围的改动，降低了改建成本和出错机率。
　　基于上述的选型思路，服务的三个核心构架分别选择了Spring，Spark和Alluxio。其中Spring的应用十分广泛，在实际案例和文档上都十分丰富，很容易落地实现；Spark本身是一个特别优秀的分布式估算框架，目前团队对Spark有太强的掌控力，调优经验也太丰富，这样只须要专注在估算逻辑的开发即可；Alluxio相对HDFS或HBase来说愈发轻量，同时支持包括显存在内的多层异构储存，这些特点可能会在后续优化中得到借助。
　　在具体的布署形式上，Spring Server单独启动，Spark和Alluxio都采用Standalone模式，且两个服务的slave节点在化学机上共同布署。Spring进程中通过SparkContext维持一个Spark长作业，这样接到查询恳求后可以快速递交逻辑，避免了申请节点资源和启动Executor的时间开支。
　　

　　上述构架通过对数据的合理分区和资源的并发借助，可以实现一个查询恳求在几分钟内完成。相对原先的几个小时有了很大改观，但还是不能满足交互式剖析的需求，因此还须要做进一步的优化。
　　本地化调度。存储和估算分离的构架中这是常见的一种优化手段。以下图为例，某个节点上task读取的数据在另外节点上，这样就形成了跨机器的访问，在并发度很大时对网路IO带来了很大压力。如果通过本地化调度，把估算调度到数据的同一节点上执行，就可以避免这个问题。实现本地化调度的前提是有收录数据位置信息的元数据，以及估算框架的支持，这两点在Alluxio和Spark中都很容易做到。
　　

　　内存映射。常规实现中，数据须要从c盘拷贝到JVM的显存中，这会带来两个问题。一是拷贝的时间太长，几百MB的数据对CPU时间的占用特别可观；二是JVM的显存压力很大，带来GC等一系列的问题。通过mmap等显存映射的方法，数据可以直接读取，不需要再进JVM，这样就挺好的解决了上述的两个问题。
　　

　　Unsafe调用。由于大部分的数据通过ByteBuffer访问，这里带来的额外开支对最终性能也有很大影响。Java lib中的ByteBuffer访问插口是十分安全的，但安全也意味着低效，一次访问会有很多次的边界检测，而且多层函数的调用也有好多额外开支。如果访问逻辑相对简单，对数据边界控制太有信心的情况下，可以直接调用native方式，绕过上述的一系列额外检测和函数调用。这种用法在好多系统中也被广泛采用，比如Presto和Spark都有类似的优化方式。
　　

　　下图是对上述优化过程的对比展示。请注意横轴是对数轴，也就是说图中每格代表了一个数据级的优化。从图中可以见到，常规的UDAF方案一次查询须要花几千秒的时间，经过索引结构的设计、本地化调度、内存映射和Unsafe调用的优化过程以后，一次查询只须要几秒的时间，优化了3~4个数据级，完全达到了交互式剖析的需求。
　　

　　这里想多谈几句对这个优化结果的想法。主流的大数据生态系统都是基于JVM系语言开发的，包括Hadoop生态的Java，Spark的Scala等等。由于JVM执行机制带来的不可避开的性能损失，现在也有一些基于C++或其它语言开发的系统，有人声称在性能上有几倍甚至几十倍的提高。这种尝试其实挺好，但从里面的优化过程来看，整个系统主要是通过更高效的数据结构和更合理的系统构架达到了3个数量级的性能提高，语言特点只是在最后一步优化中有一定疗效，在整体占比中并不多。
　　有一句鱼汤说“以大多数人的努力程度而言，根本没有到拼天赋的地步”，套用在这里就是“以大多数系统的构架设计而言，根本没有到拼语言性能的地步”。语言本身不是门槛，代码你们就会写，但整个系统的构架是否合理，数据结构是否足够高效，这些设计依赖的是对问题本质的理解和工程上的权衡，这才是更审视设计能力和经验的地方。
　　总结
　　上述方案目前在美团点评内部早已实际落地，稳定运行超过半年以上。每天的数据有几百亿条，活跃用户达到了上亿的量级，埋点属性超过了百万，日均查询量几百次，单次查询的TP95时间大于5秒，完全才能满足交互式剖析的预期。
　　

　　整个方案从业务需求的实际理解和深入剖析出发，抽象出了维度筛选、序列匹配和去重计数三个核心问题，针对每位问题都给出了合理高效的解决方案，其中结合实际数据特性对数据结构的优化是方案的最大亮点。在方案的实际工程落地和优化过程中，秉持“简单、成熟、可控、可调”的选型原则，快速落地实现了高效构架，通过一系列的优化手段和方法，最终达成了3~4个数量级的性能提高。

算法 自动采集列表

话题描述

相关话题

最佳回复者

1 人关注该话题

算法自动采集列表