Q-Learning-1

学习地址

Critic

Q-Learning是value-based的强化学习,它学习的是一个Critic,评价所给出的actor π有多好

例如: State value function Vπ(s)

  • 当使用actor π,Vπ(s)所代表就是在观察到状态s后累积的期望收益值
    2019-11-01 15-55-14 的屏幕截图.png

如何衡量Vπ(s)

基于蒙特卡罗

Critic观察 π 玩游戏,让Agent与环境互动
当看到状态sa时,到游戏结束所得到的累积收益越接近Ga越好,但需要等到游戏结束才能得到结果
2019-11-01 16-00-35 的屏幕截图.png

基于时间差分(Temporal-difference)

不需要等一整个episode结束,只需等到一个状态(st ,at,rt)到下一个状态st+1
Vπ(st)=Vπ(st+1) + rt
2019-11-01 16-10-36 的屏幕截图.png

2019-11-01 16-14-08 的屏幕截图.png

State-action value function Qπ(s,a)

假设在状态s采取的行为是a,在策略π下所累积的收益期望
2019-11-01 16-23-23 的屏幕截图.png

2019-11-01 16-30-49 的屏幕截图.png
2019-11-01 16-52-12 的屏幕截图.png

Target Network

训练时固定一个Qπ,作为目标网络,更新其他的Qπ,然后用更新好几次的Q代替所固定的Q
2019-11-01 16-57-07 的屏幕截图.png

Exploration

2019-11-01 17-04-18 的屏幕截图.png

Replay Buffer

2019-11-01 17-07-05 的屏幕截图.png

Algorithm

2019-11-01 17-11-18 的屏幕截图.png