Proximal Policy Optimazation

学习地址

策略梯度

Policy of Actor
  • Policy π is a network with parameter θ
    • Input: the observation of machine represented as a vector or a matrix
    • Output: each action corresponds to a neuron in output layer

2019-10-27 11-34-27 的屏幕截图.png
2019-10-27 11-42-51 的屏幕截图.png
2019-10-27 11-44-49 的屏幕截图.png
2019-10-27 11-44-49 的屏幕截图.png
2019-11-01 09-47-31 的屏幕截图.png
2019-10-27 14-47-16 的屏幕截图.png

Tips

  1. 关于上述图片的一些解释,结合前面章节
  2. 技巧1表示有的数据可能没有被采样,但它对结果可能是正反馈,我们给所有数据减去一个基准值,使得所有数据有正有负,这样采样平均一些。
  3. 技巧2表示应该考虑各种情况,故 t’ 不从0开始,折扣因子表示当前对以后的影响,这个影响应该是越来越小的。