无规则采集器列表算法(人工智能人工智能(AI)、机器学习(ML)和算法)
优采云 发布时间: 2021-10-30 07:17无规则采集器列表算法(人工智能人工智能(AI)、机器学习(ML)和算法)
术语人工智能 (AI)、机器学习 (ML) 和算法经常被误用、混淆和误解。尽管它们都有自己固定的含义,但人们经常互换使用这些概念。不幸的是,如果不掌握这些含义,它们可能会在已经非常复杂和快速发展的领域中造成混乱。现在,让我们来了解一些关于算法、人工智能和机器学习的基础知识,了解它们是什么,如何使用它们,它们在哪里使用,以及它们为什么被创建。让我们从算法开始,因为算法构成了人工智能和机器学习的基础。
算法
简而言之,算法是执行计算或解决特定问题时要遵循的一组规则。它收录解决问题所需的一系列步骤。虽然我们大多数人对算法的第一反应是对计算机的指令,但即使是你今天用来做晚餐的简单食谱也可以被视为一种算法。
算法本质上是一种告诉计算机接下来要做什么的快速方法,通过使用“and”、“or”(或)或“not”语句来给出这些指令。它们可能非常简单(图1)),也可能非常复杂。
图 1:在随机排列的数字列表中查找最大数字的简单算法。(来源:维基百科)
对于(图1)中的算法,其高层描述如下:
如果数组中没有数字,则没有最大数字。
假设数组中的第一个数字是其中最大的数字。
对于数组中的每个剩余数字:如果数字大于当前最大数字,则假定为数组中的最大数字。
如果数组中的所有数都被循环到,则将当前最大的数视为数组中的最大数。
这些指令可以明确地写入特定程序;然而,有一些算法可以让计算机自己学习,比如机器学习。在讨论机器学习之前,让我们先介绍一下人工智能这个更广泛的话题。
人工智能
人工智能(AI)需要结合一系列算法来应对突发情况。如果人工智能就像一把伞,那么机器学习和深度学习(DL)就像伞骨。人工智能系统可以以自然的方式与用户交互。亚马逊、谷歌和苹果处于利用人工智能及其核心非结构化数据的最前沿。
2018年,人工智能的阅读理解能力朝着与人类同等能力的目标迈进了一大步。开发人员使用监督学习和标记示例来训练 AI 模型来执行目标任务,例如图像分类。一年后,人工智能出现了新的趋势。自监督学习用于帮助模型通过易于获得的相关内容来理解语言中丰富的上下文语义。这种突破性方法帮助模型学习的一种方式是阅读文本、屏蔽不同的单词并根据剩余的文本进行预测。
利用这种自监督学习,微软的图灵模型在 2020 年达到了 170 亿参数的新高度,实现了包括生成摘要、上下文预测和问答等各种实用的语言建模任务。微软图灵模型通过其对人类语言的深刻而根本的理解,可以获取人们想要表达的含义,并准确地回答实时对话和文档中的问题。
准确率会随着AI系统的学习而提高。未来几年,人工智能系统的参数数量有望达到万亿,这将使人工智能更容易辅助用户,实现单靠结构化数据无法获得的惊人准确率。那么,是什么让这种学习带来前所未有的准确性呢?
机器学习
机器学习使用结构化数据输入和算法进行假设,重新评估数据,并根据新发现的条件重新配置原创算法(图2)。它可以在没有人为干预的情况下做到这一点,所以被称为机器学习因为机器学习系统可以非常快速地处理大量数据,它的优势在于它可以以人类无法达到的速度和能力发现所有可能的模式和解决方案。
然而,复杂的系统也带来了复杂的挑战。由于机器学习过于依赖假设,系统可能很快就会走错路,导致意想不到的行为和结果。一个例子是优步的自动驾驶试点项目,该项目因错误假设导致行人死亡,最终在 2018 年停止了所有试验。
图 2:机器学习涉及根据经验自动改进的计算机算法。该算法基于样本或训练数据构建模型,目的是进行预测(学习)。(来源:维基百科)
机器学习的例子太多了,这里我们举一个*敏*感*词*欺诈检测的例子。在这种情况下,如果*敏*感*词*的使用超过持卡人预期的正常使用模式,则需要用户验证可疑交易是否合法。然后,机器学习系统进一步调整和修改其对可接受使用模式的理解。
机器学习可以预测一系列结果,这些结果可能都是正确的,但很多结果一开始可能是不可预测的。机器学习项目缺乏准确性的原因有很多。
问题出在哪儿?
大多数人工智能实验失败的原因之一是缺乏允许机器学习推理的早期指导。机器只识别“0”和“1”,不能处理其他的歧义。
例如,想象一下“痛苦”的概念。孩子需要有人教她:“碰火炉会痛,这是不对的。” 或者,同样可以说:“如果你想跑,它可能会受伤。你会感到疼痛。这是正常的。现象。” 推理帮助机器学习系统知道正面和负面结果之间的区别。从优步的例子可以看出,这在深度学习中变得更加重要,因为如果某种类型的导师不提供反馈,系统可能会做出错误的假设。只有在指导机器如何处理各种含糊不清的结果之后,机器才可以说已经达到了足够的学习,如果一个问题的答案是“可能”而不是“是”或“否”,那么必须提出更多问题!
另一个挑战是,使用所有可能的组合和条件来构建套路需要无穷无尽的时间和无限的资金,而且不能就此止步——未来也应考虑各种条件及其组合。会如何变化。例程往往是僵化的,这导致数据流不灵活。
推理的本质在于推理。随着引擎变得更智能,更正成为可能。购物清单上看似清晰的“half-and-half”(鲜奶油)只会显示两个“half”,因为如果用户不修改它,则和用作逻辑运算符。但是,如果用户更正了一个条目,引擎会考虑这个更正,并且可能会在数以万计的其他条目中考虑相同的更正,从而默认接受“对半”作为有效项目。这就像教孩子说英语:理解单词的含义,然后理解在某些条件下将一个单词与另一个单词放在一起可能会改变含义。
必须有这样的规则和规定才能使算法正确运行。算法本身没有常识,它对明显的错误一无所知——程序根本不知道发生了什么。算法需要有一个非常完整、具体和明确的行动计划才能有效。问题的关键可能在这里。
总而言之,当您查看人工智能、算法和机器学习等特定词的性质时,很明显不应将它们混淆。最好的方式是这样看待它们,算法是解决问题的公式或指令,人工智能使用数据和算法来激发行动和完成任务。另一方面,机器学习是人工智能的一种应用,相当于基于以前的数据和历史进行自动学习。算法是人工智能和机器学习的基础,而后者是我们未来的基础。