如何使用值迭代解决强化学习网格世界示例?

How to Solve reinforcement learning Grid world examples using value iteration?

我发现无论是理论还是 python 例子都不能满足初学者的要求。我只需要理解一个简单的例子来理解逐步迭代。谁能告诉我我为价值迭代上传的图像的第一次和第二次迭代? Grid world problem

我推荐此 PDF:http://www.cis.upenn.edu/~cis519/fall2015/lectures/14_ReinforcementLearning.pdf, 这对网格世界问题非常清楚。 github:

上有代码

https://github.com/kevlar1818/grid-world-rl

https://github.com/dennybritz/reinforcement-learning/blob/master/DP/Policy%20Evaluation%20Solution.ipynb

希望这些帮助。

除了@holibut的链接非常有用,我还推荐:https://github.com/JaeDukSeo/reinforcement-learning-an-introduction/blob/master/chapter03/GridWorld.py

作者实现了书中介绍的完整网格生成。恕我直言,这是一个更简单的实现,可以调试网格生成循环以清楚地逐步了解值的计算方式以及贝尔曼方程的应用方式。