近端策略优化算法论文 - "KL" 操作的定义?
Proximal Policy Optimization Algorithms paper - definition of "KL" operation?
在关于近端策略优化算法的原始论文中
作者在等式(4)中使用了一个用KL[]
表示的操作。不幸的是,他们从未给出它的定义。
我的问题:
What does the KL[]
operation stand for?
也许是 KL divergence?
KL散度用于比较两个概率分布之间的差异。
在关于近端策略优化算法的原始论文中
作者在等式(4)中使用了一个用KL[]
表示的操作。不幸的是,他们从未给出它的定义。
我的问题:
What does the
KL[]
operation stand for?
也许是 KL divergence?
KL散度用于比较两个概率分布之间的差异。