Imitation Learning

2019-11-05

学习地址

介绍

2019-11-05 14-41-24 的屏幕截图.png

Behavior Cloning

观察专业行为或者说标准行为，然后进行决策，但这样收集的数据可能比较单一，没有各种情况下的数据。
2019-11-05 14-43-44 的屏幕截图.png
2019-11-05 14-46-25 的屏幕截图.png
2019-11-05 14-48-40 的屏幕截图.png

上图是以学说话为例的，在说话时可能会用手势促进理解，但是学习者应该学会的是语言，而非附带的手势。

Inverse Reinforcement Learning(IRL)

传统学习模型
2019-11-05 15-02-40 的屏幕截图.png
现在在观察专业行为的基础上反推出Function，再应用到学习行为中
2019-11-05 15-04-13 的屏幕截图.png

假设专业行为是最好的，那么，

2019-11-05 15-10-08 的屏幕截图.png