笔记

王树森DRL

  • 蒙特卡洛是一大类随机算法的总称,通过随机样本来估计真实值

  • 状态是对当前环境的一个概括,是做决策的唯一依据

  • 环境用于生成新状态

  • 动作价值函数是回报的条件期望,而求期望是为了消除回报的随机性

  • 策略评估是求某一个状态和动作的价值函数,动作控制是利用最佳价值函数选择某一状态下的动作

  • 在value-based中,求最佳策略的前提是求最优价值函数,而最优价值函数是用表格法或者网络近似的。

  • 时序差分中,用目标Q值或者称为TD目标代替Gt进行loss的计算,目标是缩小TD误差。比如Q-learning中的TD目标为 $$ \underbrace{Q\left(s_{t}, a_{t} ; \boldsymbol{w}\right)}_{\text {预测 } \hat{q}_{t}} \approx \underbrace{r_{t}+\gamma \cdot \max _{a \in \mathcal{A}} Q\left(s_{t+1}, a ; \boldsymbol{w}\right)}_{\mathrm{TD} \text { 目标 } \hat{y}_{t}} . $$

  • RL中困难的数学推导主要是随机变量、马尔可夫决策过程、贝尔曼方程(概率计算,期望)

  • off-policy和on-policy

    • 策略分为行为策略和目标策略,行为策略是和环境交互的策略
    • off-policy即行为策略和目标策略不同,因此可以使用行为策略产生的经验用于训练目标策略
    • 经验回访只适用于off-policy,因此可得到DDPG中的DPG也是off-policy
    • 可以看算法中A‘的生成,若A’是由行为策略生成的(即产生A的策略),则该算法为on-policy,反之为off-policy
  • Q-learning与SARSA的区别

    Q-learning 近似$Q_*$(与$\pi$无关) off-policy 可以使用经验回放
    SARSA 近似$Q_\pi$ on-policy 不可以使用经验回放
  • MC和TD

    • MC是用实际观测$u_t$回报作为目标,TD使用TD目标作为目标。
    • MC的优点是无偏性,即$u_t$是$Q_\pi(s_t,a_t)$的无偏估计,即$E(u_t)=Q_\pi(s_t,a_t)$,缺点是方差大,因为回合更新的目标$U_t$的随机性来自于t+1之后所有时间的状态和动作,随机性较大因此方差大,导致收敛慢
    • TD的优点是方差小,收敛快,但是有偏差。
  • 价值学习高级技巧

    • 经验回放
      • 优点:打破序列的相关性,加速off-policy算法的收敛
      • 优先经验回放