原创智能优化,原创度检查,一键采集,文章组合(1.统计学机器学习理论在训练中的应用 )

优采云 发布时间: 2022-04-15 08:29

  原创智能优化,原创度检查,一键采集,文章组合(1.统计学机器学习理论在训练中的应用

)

  1.统计

  要深入理解机器学习,你必须有扎实的统计学基础知识,这涉及到几个方面:

  衡量模型成功与否的各种方法(精度、召回率、ROC 曲线下面积等)。损失函数和评估指标的选择如何偏离模型的输出。

  如何理解过拟合和欠拟合,以及偏差/方差权衡。

  你对模型的结果有什么信心。

  2.机器学习理论

  在训练神经网络时,实际发生了什么?是什么让一些任务可行而另一些不可行?弄清楚这些问题的最好方法不是钻研理论知识,而是尝试用图表和例子来理解机器学习。

  要理解的概念范围包括:不同的损失函数如何工作,为什么反向传播有用,以及计算图是什么。它需要深入了解如何构建功能模型以及如何与团队其他成员进行有效沟通。下面我给出了一些参考:

  Google 的深度学习课程提供了深度学习的一般介绍。

  Fei-FeiLi 的计算机视觉课程和 Richard Socher 的 NLP 课程提供了更专业的介绍。

  Goodfellow 写了一本很好的深度学习书籍,可以全面了解深度学习的基础知识。

  另一个基本技能是阅读、理解和实施论文的能力。这可能一开始会觉得很难做到,所以最好的方法是阅读带有代码的论文(例如,研究 GitXiv 上的论文)并尝试了解它是如何实现的。

  3.数据处理

  如果你问任何数据科学家他们的主要工作是什么,他们会告诉你 90% 的工作是数据处理。这与应用 AI 一样重要,因为模型的成功与数据的质量(和数量)密切相关。数据工作收录许多方面,但可以分为以下几类:

  数据采集(包括:寻找好的数据源、准确测量数据质量和分类、获取和推断标签)

  数据预处理(缺失数据插补、特征工程、数据增强、数据规范化、交叉验证分割)

  数据后处理(使模型的输出可用、清理工作、处理特殊情况和异常值)

  熟悉使用数据的最佳方法是获取数据集并进行尝试。网上有很多数据集,还有很多提供 API 网站 的社交媒体和新闻媒体。根据上面提到的步骤,我们可以学习如下:

  获取一个开源数据集并对其进行检查。它有多大(点数和特征数)?数据是如何分布的?是否存在缺失值或异常值?

  构建将原创数据转换为可用数据的转换过程。如何估算缺失值?如何正确处理异常值?如何规范化数据?能否创造出更具表现力的特征?

  检查转换后的数据集。

  4.调试或调整模型

  调试机器学习算法(无法收敛,或得到不合理的结果)与调试普通代码有很大不同。同时,找到正确的架构和超参数需要扎实的理论基础和完善的基础设施来彻底测试不同的配置。

  随着机器学习领域的快速发展,调试模型的方法也在不断发展。下面是从我们部署模型的讨论和经验中得出的“健全性检查”列表,这些条目也以某种方式反映了许多软件工程师熟悉的 KISS 原则。

  从一个简单的模型开始,该模型已被证明可以与类似的数据集一起使用,以尽快获得基线版本。经典的统计学习模型(线性回归、最近邻等)或简单的启发式或规则通常可以为您解决 80% 的问题,并更快地达到要求。开始时,使用最简单的方法来解决问题(参见谷歌机器学习规则的前几点)。

  如果您决定训练一个更复杂的模型来改进基线版本,您可以使用数据集的一个非常小的子集进行训练并实现过拟合。这保证了模型至少有学习的能力。不断迭代模型,直到它过拟合 5% 的数据。

  一旦您开始使用更多数据进行训练,超参数就会开始发挥更大的作用。您需要了解这些参数所涉及的理论,才能找到合理的值。

  请使用有针对性的方法来调整模型。简要记录您使用过的所有配置及其结果。理想情况下,可以使用自动超参数搜索策略。一开始,使用随机搜索就足够了。

  您越发达,执行这些步骤的速度就越快,反之亦然。

  5.软件工程

  许多应用机器学习允许您充分发展您的软件工程技能,尽管有一些小的变化。这些技能包括:

  测试管道的所有方面(数据的预处理和扩充、输入和输出的排序、模型推理时间)。

  基于模块化和可重用性原则构建代码。

  在训练过程的各个点备份模型(检查点)。

  配置分布式基础架构,以便更有效地执行训练、超参数搜索或推理。

  人工智能、大数据、云计算和物联网的未来发展值得关注。都是前沿行业。多智能时代侧重于人工智能和大数据的介绍和知识。这里有一些高质量的文章给你:

  人工智能需要掌握哪些知识点?我应该读什么书?

  学习人工智能,教学大纲是这样设计的

  人工智能学习训练会遇到哪些问题?

  多元智能时代——人工智能与大数据学习概论网站|人工智能、大数据、物联网、云计算的学习交流网站

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线