为什么强化算法在使用不均匀概率初始化时会收敛?
Why does the reinforce algorithm converge when initialized with uneven probabilites?
给定以下环境,为什么强化算法(或任何其他简单的策略梯度算法)会收敛到采取行动 b 的最优解,即使采取行动 a 的起始概率要高得多?
从状态 S0 开始
采取行动 ---> 奖励 5
采取行动 b ---> 奖励 10
本集结束,状态s0重新开始
它将收敛到采取动作b的最优解,因为从长远来看,具有更高奖励值的动作的梯度总是会采取更大的步骤。
这道题的关键在于损失函数:
log(probability(action))*reward
具有梯度
(1/probability) * reward
所以如果模型对动作a的概率为90%(0.9),则损失函数的梯度为1/0.9 * reward = 1.111 * reward。如果模型以 10%(0.1) 的概率采取动作 b,则梯度为 1/0.1 * reward = 10 * reward。所以这个运行的梯度会高九倍。这平衡了一个事实,即具有高概率的动作的权重将更频繁地增加,并减少了对奖励的梯度。所以模型的输出将收敛到只采取奖励最多的行动。
给定以下环境,为什么强化算法(或任何其他简单的策略梯度算法)会收敛到采取行动 b 的最优解,即使采取行动 a 的起始概率要高得多?
从状态 S0 开始
采取行动 ---> 奖励 5
采取行动 b ---> 奖励 10
本集结束,状态s0重新开始
它将收敛到采取动作b的最优解,因为从长远来看,具有更高奖励值的动作的梯度总是会采取更大的步骤。
这道题的关键在于损失函数:
log(probability(action))*reward
具有梯度
(1/probability) * reward
所以如果模型对动作a的概率为90%(0.9),则损失函数的梯度为1/0.9 * reward = 1.111 * reward。如果模型以 10%(0.1) 的概率采取动作 b,则梯度为 1/0.1 * reward = 10 * reward。所以这个运行的梯度会高九倍。这平衡了一个事实,即具有高概率的动作的权重将更频繁地增加,并减少了对奖励的梯度。所以模型的输出将收敛到只采取奖励最多的行动。