“Evolution Strategies as a Scalable Alternative to Reinforcement Learning”中的方程是如何推导出来的?
How is the equation in “Evolution Strategies as a Scalable Alternative to Reinforcement Learning” derived?
OpenAI论文"Evolution Strategies as a Scalable Alternative to Reinforcement Learning"中第3页的方程式是如何推导出来的?
这不是 "derived,",因为这个等式不是论文中提出的前一个等式的自然进展。
这个公式演示了作者如何选择应用随机梯度上升。这是他们使用的算法的数学表示。
在该等式的正下方,他们解释了它的工作原理:
The resulting algorithm repeatedly executes two phases: 1)
Stochastically perturbing the parameters of the policy and evaluating
the resulting parameters by running an episode in the environment, and
2) Combining the results of these episodes, calculating a stochastic
gradient estimate, and updating the parameters.
从头开始重新阅读论文并缓慢而仔细地阅读可能会有所帮助。如果您遇到任何没有意义的事情,请查找它,并且在您理解作者试图告诉您的内容之前不要继续阅读该论文。
OpenAI论文"Evolution Strategies as a Scalable Alternative to Reinforcement Learning"中第3页的方程式是如何推导出来的?
这不是 "derived,",因为这个等式不是论文中提出的前一个等式的自然进展。
这个公式演示了作者如何选择应用随机梯度上升。这是他们使用的算法的数学表示。
在该等式的正下方,他们解释了它的工作原理:
The resulting algorithm repeatedly executes two phases: 1) Stochastically perturbing the parameters of the policy and evaluating the resulting parameters by running an episode in the environment, and 2) Combining the results of these episodes, calculating a stochastic gradient estimate, and updating the parameters.
从头开始重新阅读论文并缓慢而仔细地阅读可能会有所帮助。如果您遇到任何没有意义的事情,请查找它,并且在您理解作者试图告诉您的内容之前不要继续阅读该论文。