DRL书学习笔记 // DW的个人博客

笔记

王树森DRL

蒙特卡洛是一大类随机算法的总称，通过随机样本来估计真实值
状态是对当前环境的一个概括，是做决策的唯一依据
环境用于生成新状态
动作价值函数是回报的条件期望，而求期望是为了消除回报的随机性
策略评估是求某一个状态和动作的价值函数，动作控制是利用最佳价值函数选择某一状态下的动作
在value-based中，求最佳策略的前提是求最优价值函数，而最优价值函数是用表格法或者网络近似的。
时序差分中，用目标Q值或者称为TD目标代替Gt进行loss的计算，目标是缩小TD误差。比如Q-learning中的TD目标为 $$ \underbrace{Q\left(s_{t}, a_{t} ; \boldsymbol{w}\right)}_{\text {预测 } \hat{q}_{t}} \approx \underbrace{r_{t}+\gamma \cdot \max _{a \in \mathcal{A}} Q\left(s_{t+1}, a ; \boldsymbol{w}\right)}_{\mathrm{TD} \text { 目标 } \hat{y}_{t}} . $$
RL中困难的数学推导主要是随机变量、马尔可夫决策过程、贝尔曼方程（概率计算，期望）
off-policy和on-policy
- 策略分为行为策略和目标策略，行为策略是和环境交互的策略
- off-policy即行为策略和目标策略不同，因此可以使用行为策略产生的经验用于训练目标策略
- 经验回访只适用于off-policy，因此可得到DDPG中的DPG也是off-policy
- 可以看算法中A‘的生成，若A’是由行为策略生成的（即产生A的策略），则该算法为on-policy，反之为off-policy
Q-learning与SARSA的区别

Q-learning 近似$Q_*$（与$\pi$无关） off-policy 可以使用经验回放

SARSA 近似$Q_\pi$ on-policy 不可以使用经验回放
MC和TD
- MC是用实际观测$u_t$回报作为目标，TD使用TD目标作为目标。
- MC的优点是无偏性，即$u_t$是$Q_\pi(s_t,a_t)$的无偏估计，即$E(u_t)=Q_\pi(s_t,a_t)$，缺点是方差大，因为回合更新的目标$U_t$的随机性来自于t+1之后所有时间的状态和动作，随机性较大因此方差大，导致收敛慢
- TD的优点是方差小，收敛快，但是有偏差。
价值学习高级技巧
- 经验回放
  - 优点：打破序列的相关性，加速off-policy算法的收敛
  - 优先经验回放