使用Q学习算法实现自动迷宫机器人

优采云发布时间: 2020-08-07 05:02

　　项目说明:

　　在此项目中，您将使用强化学习算法来实现自动迷宫机器人.

　　我们需要通过修改robot.py中的代码来实现Q学习机器人，以实现上述目标.

　　第1节算法理解1.1强化学习概述

　　强化学习是一种机器学习算法，其模式是让代理学习“训练”中的“经验”以完成给定的任务. 但是不同于监督学习和无监督学习，在强化学习的框架中，我们更多地关注通过主体与环境之间的相互作用进行学习. 通常，在有监督的学习和无监督的学习任务中，座席经常需要通过给定的训练集，并辅以集合的训练目标（例如，使损失函数最小化），并通过给定的学习算法实现此目标. 但是，在强化学习中，主体通过与环境互动获得的收益来学习. 这种环境可以是虚拟的（例如虚拟迷宫）或真实的（无人驾驶汽车在真实道路上采集数据）.

　　强化学习有五个核心组成部分，分别是: 环境，主体，状态，行动和奖励. 在某个时间点t:

　　通过合理的学习算法，代理将在这种问题设置下成功学习状态.

　　选择操作

　　策略

　　.

　　1.2计算Q值

　　在我们的项目中，我们希望实现基于Q学习的强化学习算法. Q学习是一种值迭代算法. 与策略迭代算法不同，值迭代算法计算每个“状态”或“状态操作”的值或效用，然后在执行此值时尝试使其最大化. 因此，每个状态值的准确估计是我们的值迭代算法的核心. 通常，我们会考虑最大化行为的长期回报，即不仅是当前行为带来的回报，而且还会是行为的长期回报.

　　在Q学习算法中，我们将此长期奖励记录为Q值，并且将考虑每个“状态动作”的Q值. 具体来说，其计算公式为: