我需要帮助理解强化学习代码

Question

一段时间以来，我一直在尝试解决 OpenAI MountainCarContinuous-v0 环境，但一直卡住了。

在我自己花了数周时间尝试解决它之后，我现在只是想了解别人的代码。 Here is the link the person used to solve the enviroment。具体来说，我需要有关损失函数的帮助。

在GitHub代码中写成

self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()

这个损失函数在做什么？如果您能用简单的术语描述它，那将对我有很大帮助。

Answer 1

第一步，用mean和variance定义了一个normal-ditribution。在下一步中，损失函数的定义类似于 -A*log(p(a)) + \lambda * entropy，其中 A 是优势，p(a) 是从正态分布中采样的动作概率，最后在损失函数中添加分布熵。

我需要帮助理解强化学习代码

I need help understanding reinforcement learning code

machine-learning

reinforcement-learning

tensorflow

openai-gym