近端策略优化算法论文 - "KL" 操作的定义?

Proximal Policy Optimization Algorithms paper - definition of "KL" operation?

在关于近端策略优化算法的原始论文中

https://arxiv.org/pdf/1707.06347.pdf

作者在等式(4)中使用了一个用KL[]表示的操作。不幸的是,他们从未给出它的定义。

我的问题:

What does the KL[] operation stand for?

也许是 KL divergence

KL散度用于比较两个概率分布之间的差异。