这两个不同的值迭代更新公式是否等效?
Are these two different formulas for Value-Iteration update equivalent?
在通过不同渠道研究 MDP 时,我在值迭代算法中遇到了两个不同的值更新公式。
第一个是(维基百科上的那个和几本书):
.
第二个是(在堆栈中的一些问题和我的课程幻灯片中):
对于特定的迭代,他们似乎没有给出相同的答案。其中之一是否更快地收敛到解决方案?
实际上区别在于奖励函数 R(s , s') 或第二个公式中的 R(s)。
第一个方程被推广。
在第一个中,当从状态 转换时,奖励是 Ra(s , s') s
到状态s'
应有的行动a'
。
不同状态和动作的奖励可能不同。
但是如果对于每个状态s
我们都有一些预定义的奖励(不管之前的状态和导致[的动作如何=10=]),那么我们可以将公式简化为第二个
最终值不一定相等,但政策相同。
在通过不同渠道研究 MDP 时,我在值迭代算法中遇到了两个不同的值更新公式。
第一个是(维基百科上的那个和几本书):
第二个是(在堆栈中的一些问题和我的课程幻灯片中):
对于特定的迭代,他们似乎没有给出相同的答案。其中之一是否更快地收敛到解决方案?
实际上区别在于奖励函数 R(s , s') 或第二个公式中的 R(s)。
第一个方程被推广。
在第一个中,当从状态 转换时,奖励是 Ra(s , s') s
到状态s'
应有的行动a'
。
不同状态和动作的奖励可能不同。
但是如果对于每个状态s
我们都有一些预定义的奖励(不管之前的状态和导致[的动作如何=10=]),那么我们可以将公式简化为第二个
最终值不一定相等,但政策相同。