如何在非平稳环境中求解确定性 MDP

How to solve a deterministic MDP in a non-stationary environment

我正在寻找一种解决马尔可夫决策过程 (MDP) 的方法。我知道从一种状态到另一种状态的转变是确定性的,但环境是不稳定的。这意味着当再次访问同一状态时,代理获得的奖励可能会有所不同。是否有算法,如 Q-Learning 或 SARSA,可用于我的问题?

理论上,这将是一个非常难的问题。也就是说,很难找到一种算法,其理论证明可以收敛到任何(最优)解。

实际上,只要不是 "too non-stationary",任何标准的 RL 算法(如您命名的算法)都可能很好。我的意思是,如果您的环境变化不大 rapidly/suddenly/often,在实践中可能会很好。您可能希望使用比固定设置中更高的探索率 and/or 和更高的学习率,因为您需要能够继续学习,并且最近的经验比旧的经验提供更多信息。