大牛学习笔记:机器学习算法概览

优采云 发布时间: 2020-08-26 00:35

  大牛学习笔记:机器学习算法概览

  本文是翻译文章,但我并未逐条句的翻译,而是有所删节,并加入了一些自己的补充。

  机器学习(Machine Learning, ML)是哪些,作为一个MLer,经常无法向你们解释何为ML。久而久之,发现要理解或解释机器学习是哪些,可以从机器学习可以解决的问题这个角度来说。对于MLers,理解ML解决的问题的类型也有助于我们更好的打算数据和选择算法。

  十个机器学习问题样例

  想入门机器学习的朋友,经常会去看一些入门书,比如《集体智慧编程》、《机器学习实战》、《数据挖掘》、《推荐系统实践》等。看书的过程中,经常性的会听到如下样例:

  因此,当再有人问ML是哪些的时侯,就可以说这个是ML可以handle的,这个问题ML也可以handle,blahblah。

  机器学习问题类型

  对问题进行分类,好处就在于可以更好的掌握问题的本质,更好的晓得哪些类型的算法须要用到。

  一般有四大类型:

  机器学习算法

  知道了机器学习要解决的问题后,就可以思索针对某一个问题,需要采集的数据的类型和可以使用的机器学习算法,机器学习发展到明天,诞生了好多算法,在实际应用中常常问题在于算法的选择,在本文中,使用两种标准对算法进行分类,即学习方法和算法之间的相似性。

  学习方法(Learning Style)

  在ML中,只有几个主流的学习方法,在下边的介绍中,使用一些算法和问题的样例来对这种方法进行解释说明。按照学习方法对机器学习算法进行分类可以让我们更多的思索输入数据在算法中的角色和使用模型前须要的打算工作,对我们选择最适宜的模型有挺好的指导作用。

  在商业决策中,一般会使用的方式是监督学习和无监督学习。当下一个热门的话题是半监督学习,比如在图片分类中,有很多数据集都是有少量的标记数据和大量的非标记数据。增强学习更多的用于机器人控制机其他的控制系统中。

  算法相似度(Algorithm Similarity)

  一般会依照模型的模式或则函数模式的相似度来对算法进行界定。比如基于树的方式(tree-based method)与神经网路算法(neural network)。当然,这种方式并不完美,因为好多算法可以很容易的被界定到多个类别中去,比如学习矢量量化算法(Learning Vector Quantization)既是神经网路算法也是基于样例的算法(Instance-based method)。在本文中,可以看见好多不同的分类方式。

  回归(Regression)

  回归是在自变量和须要预测的变量之间建立一个模型,并使用迭代的方式逐步减少预测值和真实值之间的偏差。回归方式是统计机器学习的一种

  常用的回归算法如下:

  基于样例的方式(Instance-based Methods)

  基于样例的方式须要一个样本库,当新样本出现时,在样本库中找到最佳匹配的若干个样本,然后作出猜想。基于样例的方式又被成为胜者为王的方式和基于显存的学习,该算法主要关注样本之间相似度的估算方式和储存数据的表示方式。

  正则化方法(Regularization Methods)

  这是一个对其他方式的延展(通常是回归方式),这个延展就是在模型上加上了一个惩罚项,相当于奥卡姆提及,对越简单的模型越有利,有避免过拟合的作用,并且更擅长归纳。我在这里列举它是因为它的流行和强悍。

  决策树模型(Decision Tree Learning)

  决策树方式构建了一个按照数据中属性的实际值决策的模型。决策树拿来解决归纳和回归问题。

  贝叶斯(Bayesian)

  贝叶斯方式是在解决归类和回归问题中应用了贝叶斯定理的技巧。

  核技巧(Kernel Methods)

  核方式中最有名的是Support Vector Machines(支持向量机)。这种方式把输入数据映射到更高维度上,将其显得可分,使得归类和回归问题更容易建模。

  聚类(Clustering Methods)

  聚类本身就形容了问题和技巧。聚类方式一般是由建模方法分类的诸如基于中心的降维和层次降维。所有的降维方式都是借助数据的内在结构来组织数据,使得每组内的点有最大的共同性。

  联合规则学习(Association Rule Learning)

  联合规则学习是拿来对数据间提取规律的方式,通过这种规律可以发觉巨量多维空间数据之间的联系,而那些重要的联系可以被组织用来使用或则赢利。

  人工神经网络(Artificial Neural Networks)

  受生物神经网络的结构和功能的启发诞生的人工神经网络属于模式匹配一类,经常被用于回归和分类问题,但是它存在上百个算法和变种组成。其中有一些是精典流行的算法(深度学习拿出来单独讲):

  深度学习(Deep Learning)

  Deep Learning(深度学习)方法是人工神经网络在当下的一个变种。相比传统的神经网路,它更关注愈加复杂的网路构成,许多方式都是关心半监督学习,就是一个大数据集中只有少量标明数据的那个问题。

  降维(Dimensionality Reduction)

  与降维方式类似,对数据中的固有结构进行借助,使用无监督的方式学习一种方法,该方法用更少的信息来对数据做归纳和描述。这对于对数据进行可视化或则简化数据很有用,也有消除噪音的影响,经常采用这些方式促使算法愈发高效。

  组合方式(Ensemble Methods)

  Ensemble methods(组合方式)由许多小的模型组成,这些模型经过独立训练,做出独立的推论,最后汇总上去产生最后的预测。组合方式的研究点集中在使用哪些模型以及那些模型如何被组合上去。

  文章出处:

  关于我们 ID:DataScientistUnion

  数盟网站:

  数盟微博:@数盟社区

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线