连续时间有限范围 MDP

Continuous-time finite-horizon MDP

是否有求解有限范围半马尔可夫决策过程的算法?

我想为具有有限动作 space、有限状态 space 和截止日期的顺序决策问题找到最优策略。至关重要的是,不同的动作需要不同的时间量,并且对于其中一个动作,这个持续时间是随机的。我可以根据可用的方法将时间建模为离散的或连续的。

我知道折扣无限范围半 MDP 的算法,但我找不到关于有限范围半 MDP 的任何工作。这 class 个问题以前有人研究过吗?

与几乎所有 MDP 一样,后向动态规划应该可行。您可以从 0 到截止日期以小步离散化有限范围,然后从截止日期开始递归更新值。在 space 状态下,您必须跟踪当前操作、该操作花费的总时间以及已经完成的操作。可能的状态数量可能相当多。

在动态程序中,您也许可以利用您可以 select 动作完成时状态的价值函数。