我需要帮助理解强化学习代码

I need help understanding reinforcement learning code

一段时间以来,我一直在尝试解决 OpenAI MountainCarContinuous-v0 环境,但一直卡住了。

在我自己花了数周时间尝试解决它之后,我现在只是想了解别人的代码。 Here is the link the person used to solve the enviroment。具体来说,我需要有关损失函数的帮助。

在GitHub代码中写成

self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()

这个损失函数在做什么?如果您能用简单的术语描述它,那将对我有很大帮助。

第一步,用meanvariance定义了一个normal-ditribution。在下一步中,损失函数的定义类似于 -A*log(p(a)) + \lambda * entropy,其中 A 是优势,p(a) 是从正态分布中采样的动作概率,最后在损失函数中添加分布熵。