POMDP 中的 "controllable actions" 是什么意思?

What do we mean by "controllable actions" in a POMDP?

我有一些关于 POMDP 的问题。

  1. 在部分可观察的马尔可夫决策过程中,可控动作是什么意思?或者在隐马尔可夫状态下没有可控动作?

  2. 当通过值或策略迭代计算策略时,我们可以说 POMDP 是一个专家系统(因为我们对环境进行建模)?而在使用 Q-learning 时,它在智能或对不断变化的环境的适应性方面更灵活?

操作数

可控行为是决策者做出选择的结果。在 classic POMDP 老虎问题中,两扇门中的一扇门后面隐藏着一只老虎。在每个时间步,决策者可以选择倾听或打开其中一扇门。这个场景中的动作是{听,开左门,开右门}。从一种状态到另一种状态的转换函数取决于先前的状态和选择的动作。

在隐马尔可夫模型 (HMM) 中,决策者没有任何动作。在老虎问题的背景下,这意味着参与者只能在不开门的情况下倾听。在这种情况下,转换函数只依赖于之前的状态,因为没有动作。

有关老虎问题的更多详细信息,请参阅 Kaelbling Littman 和 Cassandra 的 1998 POMDP paper, Section 5.1. There's also a more introductory walk-through available in this tutorial

适应性

您问题中的基本直觉是正确的,但可以改进。 POMDP 是一种 class 模型,而 Q-learning 是一种解决方案技术。您问题的基本区别在于基于模型和无模型的方法。 POMDP 是基于模型的,尽管部分可观察性允许额外的不确定性。强化学习可以通过 Q 学习应用于无模型环境。无模型方法对于非平稳问题将更加灵活。也就是说,根据问题的复杂性,您可以将非平稳性纳入模型本身并将其视为 MDP。

在对此 question 的回答中,对这些非平稳建模权衡进行了非常彻底的讨论。

最后,POMDP 可以被视为专家系统是正确的。 Mazumdar 等人 (2017) suggested 将马尔可夫决策过程 (MDP) 视为专家系统。