DRL书学习笔记
笔记
-
蒙特卡洛是一大类随机算法的总称,通过随机样本来估计真实值
-
状态是对当前环境的一个概括,是做决策的唯一依据
-
环境用于生成新状态
-
动作价值函数是回报的条件期望,而求期望是为了消除回报的随机性
-
策略评估是求某一个状态和动作的价值函数,动作控制是利用最佳价值函数选择某一状态下的动作
-
在value-based中,求最佳策略的前提是求最优价值函数,而最优价值函数是用表格法或者网络近似的。
-
时序差分中,用目标Q值或者称为TD目标代替Gt进行loss的计算,目标是缩小TD误差。比如Q-learning中的TD目标为 $$ \underbrace{Q\left(s_{t}, a_{t} ; \boldsymbol{w}\right)}_{\text {预测 } \hat{q}_{t}} \approx \underbrace{r_{t}+\gamma \cdot \max _{a \in \mathcal{A}} Q\left(s_{t+1}, a ; \boldsymbol{w}\right)}_{\mathrm{TD} \text { 目标 } \hat{y}_{t}} . $$
-
RL中困难的数学推导主要是随机变量、马尔可夫决策过程、贝尔曼方程(概率计算,期望)
-
off-policy和on-policy
- 策略分为行为策略和目标策略,行为策略是和环境交互的策略
- off-policy即行为策略和目标策略不同,因此可以使用行为策略产生的经验用于训练目标策略
- 经验回访只适用于off-policy,因此可得到DDPG中的DPG也是off-policy
- 可以看算法中A‘的生成,若A’是由行为策略生成的(即产生A的策略),则该算法为on-policy,反之为off-policy
-
Q-learning与SARSA的区别
Q-learning 近似$Q_*$(与$\pi$无关) off-policy 可以使用经验回放 SARSA 近似$Q_\pi$ on-policy 不可以使用经验回放 -
MC和TD
- MC是用实际观测$u_t$回报作为目标,TD使用TD目标作为目标。
- MC的优点是无偏性,即$u_t$是$Q_\pi(s_t,a_t)$的无偏估计,即$E(u_t)=Q_\pi(s_t,a_t)$,缺点是方差大,因为回合更新的目标$U_t$的随机性来自于t+1之后所有时间的状态和动作,随机性较大因此方差大,导致收敛慢
- TD的优点是方差小,收敛快,但是有偏差。
-
价值学习高级技巧
- 经验回放
- 优点:打破序列的相关性,加速off-policy算法的收敛
- 优先经验回放
- 经验回放