强化学习导论

Deep Reinforcement Learning

强化学习情景

  1. Agent :与环境发生交互的智能体、智能代理
  2. State: 环境状态,智能体能观察到的东西
  3. Action:智能体与环境发生的交互,对环境会产生影响
  4. Reward:环境反馈给智能体的一个信息,好亦或坏

监督学习中,对于一种状态,智能体可能会有应对的措施,以alphago为例,不同的棋句有不同的策略,这样可以通过学习学到对应策略,即Learning from teacher,需要大量的训练,这样学习到的策略不一定是最佳策略
Reinforcement Learning中,往往不知道可能的状态,Learning from experience,不断进行试探,根据规则得出结果好或者坏,这就是experience。Alphago采取监督学习+强化学习,两台alphago对弈很多局

强化学习难点

  1. Reward delay

    • 有的action可能并不能立刻得到正反馈,甚至可能出现负反馈,但是小的牺牲能够换来更多的正反馈
  2. 智能体的行为会影响之后看到的东西,所以智能体需要学会去探索环境,探索未知世界,探索没有做过的事

强化学习类别

2019-10-30 15-02-04 的屏幕截图.png

Policy-based

实质: Learning an Actor

在机器学习中,其实就是学习一个函数,基于规则的强化学习做了类似的事

Actor就是一个Function,通常写成Policy,这个Function的输入就是智能体所看到的环境状态,输出就是智能体的行为决策,根据Reward找出best function
以上公式化为: Action=π(Observation)
2019-10-30 15-18-22 的屏幕截图.png

寻找Function的三个步骤
  1. 定义Function,比如用NN神网作为Actor
  2. 决定Functino的好坏,Goodness of Actor
    • 在连续的决策过程结束后,总的Reward可以写成各个reward的叠加Rθ;但即使是同一个actor,Rθ在每一次连续决策过程结束后都可能不同,所以定义Rθ加上画线为一个期望值,衡量Actor好坏
    • 如何计算Rθ的期望值
      2019-10-25 21-41-34 的屏幕截图.png
  3. 选取最佳function
    2019-10-25 21-50-11 的屏幕截图.png
    2019-10-25 21-55-10 的屏幕截图.png
    2019-10-30 15-58-17 的屏幕截图.png
    2019-10-30 15-59-06 的屏幕截图.png
    2019-10-30 15-56-08 的屏幕截图.png
Value-based

实质: Learning a Critic
Critic 并不做决策,它评估的是actor的好与坏
2019-10-25 22-09-43 的屏幕截图.png