Sparse Reward

学习地址

Reward Shaping

即,自己设计一些Reward,并不是实际上的Reward,有利于全局。
2019-11-05 11-07-21 的屏幕截图.png

下面描述了一个游戏的各种行为的Reward,可以根据自己的需求去调整这个Reward值,比如下面或者为什么要扣分,可能就是为了是使得机器人更好战一些。
下面的机器手臂,如何让它把蓝色板穿过柱子,要让机械手臂学会这个事,可以设定板子离柱子越近Reward越大。
2019-11-05 11-12-19 的屏幕截图.png

可能的各种设定

Curiosity

2019-11-05 11-18-23 的屏幕截图.png
2019-11-05 11-23-53 的屏幕截图.png

Curriculum Learning

规划机器学习,从易到难。

2019-11-05 12-09-32 的屏幕截图.png

2019-11-05 12-11-47 的屏幕截图.png

2019-11-05 12-12-22 的屏幕截图.png

分层学习

2019-11-05 12-17-30 的屏幕截图.png

2019-11-05-12-19-59-b9ca344c2fbc8505.png