type
status
date
slug
summary
tags
category
icon
password
符号说明:
沿用之前的规则:期望中大写字母为随机变量,小写字母为随机变量的取值。
背景
在策略梯度理论(PGT)中,我们从最大化期望回报出发,推导了策略梯度公式
若action space是离散的,可以视作softmax分类器,即给定当前状态,输出所有action的分布。从中不难发现,强化学习的优化目标相比分类而言多了一个系数
将式(1)写成梯度上升的更新形式
期望意义下,经梯度上升,。观察不同的取值对policy的影响 (注意,成立的前提是学习率足够小,忽略高阶项的一阶近似下)
这意味着,强化学习的更新法则是(在学习率足够小,忽略高阶项的一阶近似下):
- 若当前的动作能带来正的动作值收益,当前动作的概率升高。由于动作分布满足归一化约束,会同步降低其他动作的概率
- 若当前的动作能带来负的动作值收益,当前动作概率降低,归一化约束会同步提升其他动作的概率。
简单证明一下:
根据一阶泰勒展开
对于经典的蒙特卡洛算法(REINFORCE)而言,其算法流程如下(on-policy):
- 根据当前的policy rollout轨迹
- 计算策略梯度:
- 更新policy:
然后,由于采样噪声和非凸性,单步更新并不能保证性能单调提升,这也是引入baseline和actor-critic降低方差的动机。
actor-critic (文本主要讨论advantage actor critic, A2C)相较蒙特卡洛(REINFORCE)有2大核心创新
- 通过subtract baseline ,在满足无偏性的前提下降低方差
- 通过bootstrapping的方法来代替纯蒙特卡洛回报降低方差。
Subtract Baseline
在样本数量固定的情况下,随机变量方差越小,样本均值对期望值的估计越稳定。通常,在mini-batch的训练中,由于采样的轨迹有限,的方差很大。常用的actor-critic方法(A2C)采用一个subtract baseline的技巧,能有效降低方差。
具体来看:
ㅤ | |
PG | |
Subtract Baseline |
不依赖动作,也不依赖参数。通常将这个baseline定义为值函数,即
通常会定义: ,称作优势函数(advantage function)。
下面来证明为什么定义为值函数是一个比较好的选择。
无偏性证明
在看第二项
因此:
为什么能降低方差证明
为了方便推导,定义
随机变量是一个向量,维度与一致
我们的目标是找到一个
由于是一个向量,其方差是一个矩阵,不太好优化,通常选择方差矩阵的迹(trace)作为优化目标,即:
已知,从前面的无偏性证明中已知不影响。因此优化目标可改写为:
展开
最优的满足,即
整理得,对于满足
虽然导出了最优的baseline,但上面式子不适合实际应用
- 计算复杂度太高了,不仅依赖polocy gradient还依赖动作值函数。
- 并且每次actor变化,对应的最优baseline都会改变,训练波动大。
基于以上考虑,在实践中,将baseline定义为:
Bootstrapping
前文,通过subtract baseline的技巧,得到
Actor-Critic相较REINFORCE算法另一核心创新是bootstrapping。
根据action value funcion和value function的定义:
容易推导出下面两种bellman expection equation形式 (需要用到马尔可夫假设)
One-Step
K-Step (推导general advantage estimation (GAE)会用到这个形式)
以one-step为例,将其带入到式16中,此时的策略梯度可以写作
Actor-Critic算法中,额外引入了一个model来估计value function , 也将其称作critic
此时
用替代得到的和原始的梯度是有偏的,但相比蒙特卡洛估计能换来更低的方差。是一个bais- variance的trade-of。
通常用均方根误差来优化 (TD算法)
训练目标:让预测值逼近TD目标值
两边对求梯度
对于TD算法会采用半梯度假设,即令
此时
可以将认为是不动点,通过优化来逼近不动点。
完整算法流程如下(trajectory based)
- 根据当前的policy rollout轨迹,每条轨迹包含
- 计算advantage (也是TD-error):
- 计算策略梯度:
- 计算critic的更新梯度:
- 参数更新
- policy update (Actor):
- value update (Critic):
- 作者:莫叶何竹🍀
- 链接:http://www.myhz0606.com/article/RL_004
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章
