From on-policy to off-policy

2019-10-28
强化学习

学习地址

On-policy v.s. Off-policy

  • On-policy : 进行学习的智能体与环境发生交互的智能体是同一个
  • Off-policy:进行学习的智能体与环境发生交互的智能体不是同一个,通过观察别人进行学习

2019-10-28 20-38-54 的屏幕截图.png
2019-11-01 11-07-23 的屏幕截图.png
2019-11-01 11-14-47 的屏幕截图.png
2019-11-01 11-24-26 的屏幕截图.png

Proximal Policy Optimization

2019-10-28 20-59-33 的屏幕截图.png

2019-10-28 21-05-04 的屏幕截图.png
2019-11-01 14-55-41 的屏幕截图.png

分享
  • RL
  • 强化学习
上一篇
Q-Learning-1
下一篇
Proximal Policy Optimazation