Imitation Learning

学习地址

介绍

2019-11-05 14-41-24 的屏幕截图.png

Behavior Cloning

观察专业行为或者说标准行为,然后进行决策,但这样收集的数据可能比较单一,没有各种情况下的数据。
2019-11-05 14-43-44 的屏幕截图.png
2019-11-05 14-46-25 的屏幕截图.png
2019-11-05 14-48-40 的屏幕截图.png
2019-11-05-14-51-38-fdc76c7f35e9ecfc.png
上图是以学说话为例的,在说话时可能会用手势促进理解,但是学习者应该学会的是语言,而非附带的手势。

Inverse Reinforcement Learning(IRL)

传统学习模型
2019-11-05 15-02-40 的屏幕截图.png
现在在观察专业行为的基础上反推出Function,再应用到学习行为中
2019-11-05 15-04-13 的屏幕截图.png

假设专业行为是最好的,那么,

2019-11-05 15-10-08 的屏幕截图.png