关于强化学习(RL)奖励的问题

question about reward in reinforcement learning (RL)

我对 RL 中的奖励有疑问。 这句话是真的吗?如果是为什么? 提前谢谢你

“每次的奖励(对于来自相同状态的相同动作)不需要相同。”

对于确定性的完美信息博弈,确实如此。想想像围棋或国际象棋这样的游戏。但对于其他游戏,相同状态和动作的奖励主要取决于游戏当前的内部状态。