我需要帮助理解强化学习代码
I need help understanding reinforcement learning code
一段时间以来,我一直在尝试解决 OpenAI MountainCarContinuous-v0
环境,但一直卡住了。
在我自己花了数周时间尝试解决它之后,我现在只是想了解别人的代码。 Here is the link the person used to solve the enviroment。具体来说,我需要有关损失函数的帮助。
在GitHub代码中写成
self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()
这个损失函数在做什么?如果您能用简单的术语描述它,那将对我有很大帮助。
第一步,用mean
和variance
定义了一个normal-ditribution
。在下一步中,损失函数的定义类似于 -A*log(p(a)) + \lambda * entropy
,其中 A 是优势,p(a) 是从正态分布中采样的动作概率,最后在损失函数中添加分布熵。
一段时间以来,我一直在尝试解决 OpenAI MountainCarContinuous-v0
环境,但一直卡住了。
在我自己花了数周时间尝试解决它之后,我现在只是想了解别人的代码。 Here is the link the person used to solve the enviroment。具体来说,我需要有关损失函数的帮助。
在GitHub代码中写成
self.norm_dist = tf.contrib.distributions.Normal(self.mu, self.sigma)
self.loss = -tf.log(self.norm_dist.prob(self.action_train) + 1e-5) * self.advantage_train - self.lamb * self.norm_dist.entropy()
这个损失函数在做什么?如果您能用简单的术语描述它,那将对我有很大帮助。
第一步,用mean
和variance
定义了一个normal-ditribution
。在下一步中,损失函数的定义类似于 -A*log(p(a)) + \lambda * entropy
,其中 A 是优势,p(a) 是从正态分布中采样的动作概率,最后在损失函数中添加分布熵。