【文章阅读】连续空间增量式RL(策略松驰和加权权重)
优采云 发布时间: 2020-08-09 08:48【文章阅读】Incremental Reinforcement Learning in Continuous Spaces via Policy Relaxation and Importance Weighting
Brief
文章链接 paper
代码链接 code
这是一篇19年发表在 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS (一市)的论文,作者来自南京大学。从标题可以看出文章研究的内容是连续空间的增量式强化学习,研究方式是***Policy Relaxation***和 Importance Weighting。
Abstract
文章提出了一种系统的增量学习方法,用于动态环境中连续空间的加强学习。
目标:在环境发生变化时,将原先环境中早已学到的策略进行增量式调整到新的策略。
方式方式:为了提升对不断变化的环境的适应性,提出了结合增量式学习过程的两步解决方案:策略松驰和重要性加权。
First:在初始学习阶段将行为策略放宽为随机策略,以鼓励在新环境中进行适当的探求。它减轻了新信息和现有知识之间的冲突,以便在常年内更好地适应。
Second:观察到获得更高回报的episodes更符合新的环境,因此收录更多的新信息。在参数更新的过程中,我们给收录更多新信息的learning episodes赋于更高的重要性权重,从而鼓励原先的最优策略更快的适应新环境中的新策略。
实验:通过对变结构连续控制任务的实验研究,验证了该方式对不同动态环境的适应速率快于baselines。
Introduction第一段:
介绍了强化学习的大背景,定义,传统的RL算法,例如动态规划,蒙特卡洛方式,时间差分学习方法广泛应用于智能控制和工业应用dynamic programming,Monte Carlo methods,temporal difference learning。为了解决“curse of dimensionality”wei’shu维数灾难,函数近似技术,例如最小二乘策略迭代least-squares policy iteration,拟合Q-迭代fitted Q-iteration被用于连续空间的MDPs马尔可决策过程。结合深度学习的近来进展,学习特点表示让RL算法在超高危应用中具有实用性,例如Atari games [12], the game of Go [13],and robot locomotion [14].
第二段:
介绍传统RL设置中,任务固定,环境保持不变。然而,在实际应用中,环境是动态的,其中reward function,state transition function,或者state-action spaces 可能会随时间变化,例如robot navigation 机器人导航和 multiagent RL (MARL) problems多智能体RL问题。transfer RL 迁移RL是一种可能的解决方案,然而,它须要反复访问和处理一组潜在的特别大源任务提供良好的知识库。
第三段:
引出增量式RL。对于real world 应用很重要。
第四段:
回顾增量式学习,首先由【25】提出,但是局限于离散空间。对于连续空间的RL问题,增量式学习方法应当和函数近似框架结合上去。
第五段:
继续回顾增量式学习,并强调缺点。【25】中增量式学习的设定,环境改变时,近似函数的参数会依照之前学习到的最优发生改变。然而,对于初始环境的学习结果可能是过拟合的是局部最优的,尤其在使用神经网路函数拟合。在与新的环境交互中更新参数,智能体倾向于生成在初始环境中表现良好的策略,从而没有探求其他可能回报值更高的策略,即会限于局部最优。因此,基于已有知识的直接学习会妨碍RL agent对新环境的正确探求和进一步适应。还举了一个导航的反例。(掉头不易,学习有惯性)
第六段:
本文搞了啥。和摘要内容几乎一样,大概就是摘要的扩展版本。最后一句又指出了一遍增量学习的优点:在新的环境中只须要学习函数的近似值,从而***防止了重复访问或处理一组潜在的大量源任务的必要性***。
第七段:
具体介绍本文采用的方式。实验有2-D navigation和complex MuJoCo robot locomotion. 结果展示了技巧的好。又总结了一下本文的贡献In summary, the contribution of this paper lies in the following aspects:
(1).引入系统性增量式学习方法,对于连续空间RL,且环境是动态的。
(2). 提出策略松驰机制鼓励智能体对新环境正确探求
(3). 我们将重要性加权机制与策略迭代过程结合上去,以鼓励更快地适应动态环境。
下面是余文安排,略去不表.
BackgroundA. Reinforcement Learning in Continuous Spaces连续空间加强学习
(1). MDP
(2). 策略梯度
B. Related Work相关工作
这部份作者对算法又做了一遍综述. 基本是对前言部份第四段和第五段的扩充.
第三章方式设计INCREMENTAL REINFORCEMENT LEARNING IN CONTINUOUS SPACESA. Problem Formulation
首先在动态环境下构建连续空间中的增量RL问题
B. Policy Relaxation
In this paper, we adopt the spirit of \epsilon-greedy to encourage a proper exploration for the implemented policy gradient approach.
C. Importance Weighting
D. Integrated Algorithm
最后给出了基于上述实现的集成算法。
后面给出了收敛性证明.
第四章实验
仿真平台rllab benchmark suite
解决以下三个问题:
Q1:文章提出的方式可以处理环境中的动态变化程度怎样?
Q2:所提出的方式是否能更快地适应这种动态环境?
Q3:策略放松和重要性加权机制分别对增量学习绩效有何影响?
A. 实验设置B. 2-D Navigation TasksC. Locomotion Tasks第五章CONCLUSION
其推论部份基本是对摘要的重复。最后一段做了一些展望。
思考作者企图解决哪些问题?
作者要解决的是提升连续空间下,环境动态变化的增量式RL方式的adaptation。研究方式的关键是哪些?(最具有开创性)
关键是policy relaxation 和 importance weighting。作者给出了具体的实现方式,也阐述了这种方式各自对于实验结果的影响,且在多个任务平台上进行了实验,给出了详尽的数据图表。哪些东西可以为我所用?
文章中对于算法综述部份值得参考。
实验部份的图表诠释方式值得参考。
论文中关于作为对比的baselines的设置与描述值得参考。有什么参考文献可以继续跟进?
[32] F. Fernández, J. García, and M. Veloso, “Probabilistic Policy Reuse for inter-task transfer learning,” Robot. Auton. Syst., vol. 58, no. 7, pp. 866–871, Jul. 2010.
[50] A. Barreto et al., “Successor features for transfer in reinforcement learning,” in Proc. Adv. Neural Inf. Process. Syst., Jun. 2017, pp. 4055–4065.