近端策略优化算法论文 - "KL" 操作的定义？

Proximal Policy Optimization Algorithms paper - definition of "KL" operation?

在关于近端策略优化算法的原始论文中

https://arxiv.org/pdf/1707.06347.pdf

作者在等式（4）中使用了一个用KL[]表示的操作。不幸的是，他们从未给出它的定义。

我的问题：

What does the KL[] operation stand for?

KL散度用于比较两个概率分布之间的差异。