为什么强化算法在使用不均匀概率初始化时会收敛?

Why does the reinforce algorithm converge when initialized with uneven probabilites?

给定以下环境,为什么强化算法(或任何其他简单的策略梯度算法)会收敛到采取行动 b 的最优解,即使采取行动 a 的起始概率要高得多?

  1. 从状态 S0 开始

  2. 采取行动 ---> 奖励 5

    采取行动 b ---> 奖励 10

  3. 本集结束,状态s0重新开始

它将收敛到采取动作b的最优解,因为从长远来看,具有更高奖励值的动作的梯度总是会采取更大的步骤。

这道题的关键在于损失函数:

log(probability(action))*reward

具有梯度

(1/probability) * reward

所以如果模型对动作a的概率为90%(0.9),则损失函数的梯度为1/0.9 * reward = 1.111 * reward。如果模型以 10%(0.1) 的概率采取动作 b,则梯度为 1/0.1 * reward = 10 * reward。所以这个运行的梯度会高九倍。这平衡了一个事实,即具有高概率的动作的权重将更频繁地增加,并减少了对奖励的梯度。所以模型的输出将收敛到只采取奖励最多的行动。