浅谈策略梯度(PG)算法

佚名 次浏览

摘要:PolicyOptimization(策略优化)是强化学习中的一大类算法,其基本思路区别于Value-based的算法。因此,很多教科书都将model-freeRL分成两大类,PolicyOptimization和Value-based。SpinningUp[1]是OpenAI发布的入门教程(这一

Policy Optimization(策略优化)是强化学习中的一大类算法,其基本思路区别于Value-based的算法。因此,很多教科书都将model-free RL分成两大类,Policy Optimization和Value-based。

Spinning Up [1]是OpenAI发布的入门教程(spinningup.openai.com/),这一系列是入门Policy Optimization的非常好的教材,特别适合初学者。Policy Gradient(策略梯度,简称PG)算法是策略优化中的核心概念,本章我们就将从最简单的PG推导开始,一步步揭开策略优化算法的神秘面纱。

如果用一句话来表达策略梯度的直观解释,那就是“如果动作使得最终回报变大,那么增加这个动作出现的概率,反之,减少这个动作出现的概率”。这句话表达了两个含义:

  • 我们考虑的是动作对于回报的影响,没有考虑状态或者其他因素。
  • 我们调整的是动作出现的概率,而没有给某个动作打分,这区别于Value-based类的算法。

本节我们将一步步推导出策略梯度的基础公式,这一小节非常重要,理解了推导过程,就基本上理解了策略梯度的核心思想。所以,一定要耐心的把这一小节的内容全部看懂,最好能够达到自行推导的地步。

  • 最大化回报函数

我们用参数化的神经网络表示我们的策略\\pi_\	heta,那我们的目标,就可以表示为调整\	heta,使得期望回报最大,用公式表示:

J(\\pi_\	heta)=E\緻set{\\pi \\sim \	au}[R(\	au)]\	ag{1}

在公式(1)中,\	au表示从开始到结束的一条完整路径。通常,对于最大化问题,我们可以使用梯度上升算法来找到最大值。

\	heta^*=\	heta + \\alpha\
abla J(\\pi_\	heta) \	ag{2}

为了能够一步步得到最优参数,我们需要得到\
abla_{\	heta}J\\left(\\pi_{\	heta}\\right),然后利用梯度上升算法即可,核心思想就是这么简单。

  • 策略梯度

关键是求取最终的回报函数J(\\pi_\	heta)关于\	heta的梯度,这个就是策略梯度(policy gradient),通过优化策略梯度来求解RL问题的算法就叫做策略梯度算法,我们常见的PPO,TRPO都是属于策略梯度算法。下面我们的目标就是把公式(2)逐步展开,公式(2)中最核心的部分就是\
abla_{\	heta}J\\left(\\pi_{\	heta}\\right),这也是这篇博客最核心的地方。

\\begin{align}\
abla_{\	heta}J\\left(\\pi_{\	heta}\\right) &=\
abla_{\	heta}\緻set{\	au \\sim \\pi_{\	heta}}{\\mathrm{E}}[R(\	au)]\	ag{3}\\\\ &=\
abla_{\	heta}\\int_{\	au}P(\	au \\mid \	heta) R(\	au) \\quad \	ag{4}\\\\ &=\\int_{\	au}\
abla_{\	heta}P(\	au \\mid \	heta) R(\	au) \\quad \	ag{5}\\\\ &=\\int_{\	au}P(\	au \\mid \	heta) \
abla_{\	heta}\\log P(\	au \\mid \	heta) R(\	au) \	ag{6}\\\\ &=\緻set{\	au \\sim \\pi_{\	heta}}{\\mathrm{E}}\\left[\
abla_{\	heta}\\log P(\	au \\mid \	heta) R(\	au)\\right]\	ag{7}\\end{align}

在以上的推导中,用到了log求导技巧:\\log x关于x的导数是\\frac{1}{x}。因此,我们可以得到以下的公式:

\
abla_{\	heta}P(\	au \\mid \	heta)=P(\	au \\mid \	heta) \
abla_{\	heta}\\log P(\	au \\mid \	heta) \	ag{8}

所以,才有公式(5)到公式(6),接下来我们把公式(7)进一步展开,主要是把\
abla_{\	heta}\\log P(\	au \\mid \	heta)展开。先来看看P(\	au \\mid \	heta)

P(\	au \\mid \	heta)=\\rho_{0}\\left(s_{0}\\right) \\prod_{t=0}^{T}P\\left(s_{t+1}\\mid s_{t}, a_{t}\\right) \\pi_{\	heta}\\left(a_{t}\\mid s_{t}\\right) \	ag{8-1}

加入log,化乘法为加法:

\\log P(\	au \\mid \	heta)=\\log \\rho_{0}\\left(s_{0}\\right)+\\sum_{t=0}^{T}\\left(\\log P\\left(s_{t+1}\\mid s_{t}, a_{t}\\right)+\\log \\pi_{\	heta}\\left(a_{t}\\mid s_{t}\\right)\\right) \	ag{8-2}

计算log函数的梯度,并且约去一些常量:

\\begin{align}\
abla_{\	heta}\\log P(\	au \\mid \	heta) &=\\cancel{\
abla_{\	heta}\\log \\rho_{0}\\left(s_{0}\\right)}+ \\sum_{t=0}^{T}\\left(\\cancel{\
abla_{\	heta}\\log P\\left(s_{t+1}\\mid s_{t}, a_{t}\\right)}+ \
abla_{\	heta}\\log \\pi_{\	heta}\\left(a_{t}\\mid s_{t}\\right)\\right) \\\\  &=\\sum_{t=0}^{T}\
abla_{\	heta}\\log \\pi_{\	heta}\\left(a_{t}\\mid s_{t}\\right) \	ag{9}\\end{align}

因此,结合公式(7)和公式(9),我们得到了最终的表达式

\
abla_{\	heta}J\\left(\\pi_{\	heta}\\right)=\緻set{\	au \\sim \\pi_{\	heta}}{\\mathrm{E}}\\left[\\sum_{t=0}^{T}\
abla_{\	heta}\\log \\pi_{\	heta}\\left(a_{t}\\mid s_{t}\\right) R(\	au)\\right]\\quad \	ag{10}

公式(10)就是PG算法的核心表达式了,从这个公式中可以看出,我们要求取的策略梯度其实是一个期望,具体工程实现可以采用蒙特卡罗的思想来求取期望,也就是采样求均值来近似表示期望。我们收集一系列的\\mathcal{D}=\\left\\{\	au_{i}\\right\\}_{i=1, \\ldots, N} ,其中每一条轨迹都是由agent采用策略\\pi_{\	heta}与环境交互采样得到的,那策略梯度可以表示为:

\\hat{g}=\\frac{1}{|\\mathcal{D}|}\\sum_{\	au \\in \\mathcal{D}}\\sum_{t=0}^{T}\
abla_{\	heta}\\log \\pi_{\	heta}\\left(a_{t}\\mid s_{t}\\right) R(\	au) \	ag{11}

其中,|\\mathcal{D}|表示采样的轨迹的数量。现在,我们完成了详细的策略梯度的推导过程,长舒一口气,接下来的工作就比较轻松了,就是在公式(10)的基础上修修改改了。

再进行简单修改之前,我们再总结一下公式(10),毕竟这个公式是PG算法最核心的公式:

  • 对比我们常见的监督学习算法,我们都会定义loss函数,然后loss函数对参数求导,使用梯度下降算法不断使得loss最小。对于PG算法,我们的“loss函数”其实是期望回报的对数,而我们的目标是使得期望回报最大,所以这里使用了梯度上升算法。
  • 一般的监督学习算法中,训练样本和测试样本的分布是同分布的,loss函数是从固定分布的样本上求出来的,与我们想要优化的参数是独立的。然而,对于PG算法,我们会有基于现有策略的采样的过程,策略不同,采样得到的样本不同,导致最终计算出来的loss也存在较大差异,这就使得网络很容易过拟合,后面我也会讲到更加高级的Actor-Critic框架,利用对抗的思路,解决这一问题。
  • 对于一般的监督学习,loss越小越好,loss也是一个非常有效的评价训练是否完成的指标。然后对于PG算法,这里的“loss函数”意义不大,主要是因为这里的期望回报仅仅作用于当前策略生成的数据集。所以,并不是说loss降下来,模型就表现的更好。
  • 我们可以将公式中的R(\	au)看做是log\\pi_\	heta(a_t \\mid s_t)的权重,当奖励较小时,就说明在s_t下采取动作a_t的效果不好,减少s_t状态下a_t出现的概率,反之,奖励较大则增加动作出现概率,从而达到选取最合适的动作的目的。

我们继续观察公式(10),对于公式中的R(\	au),表示整个轨迹的回报,其实并不合理。对于一条轨迹中的所有动作,均采用相同的回报,就相当于对于轨迹中的每一个动作都赋予相同的权重。显然,动作序列中的动作有好有坏,都采取相同的回报,无法达到奖惩的目的,那我们该怎么表示某个状态下,执行某个动作的回报呢?

一种比较直观思路是,当前的动作将会影响后续的状态,并且获得即时奖励(reward),那么我们只需要使用折扣累计回报来表示当前动作的回报就行了,用公式表示为:

\\hat{R}_{t}\\doteq \\sum_{t^{\\prime}=t}^{T}R\\left(s_{t^{\\prime}}, a_{t^{\\prime}}, s_{t^{\\prime}+1}\\right) \	ag{12}

这在spinning up中叫做reward to go,所以,公式(10)可以表示为:

\
abla_{\	heta}J\\left(\\pi_{\	heta}\\right)=\緻set{\	au \\sim \\pi_{\	heta}}{\\mathrm{E}}\\left[\\sum_{t=0}^{T}\
abla_{\	heta}\\log \\pi_{\	heta}\\left(a_{t}\\mid s_{t}\\right) \\sum_{t^{\\prime}=t}^{T}R\\left(s_{t^{\\prime}}, a_{t^{\\prime}}, s_{t^{\\prime}+1}\\right)\\right]\	ag{13}

当然,使用reward to go的权重分配还是相当初级,我们可以使用更加高级的权重分配方式,进一步减少回报分配的方差,限于篇幅原因,我们后续再聊。


PS:

我们是行者AI,我们在“AI+游戏”中不断前行。

如果你也对游戏感兴趣,对AI充满好奇,那就快来加入我们(hr@xingzhe.ai)

随机内容

平台注册入口