如何将 UNO 建模为 POMDP

How to model UNO as a POMDP

我正在尝试将 UNO 纸牌游戏建模为部分可观察马尔可夫决策过程 (POMDP)。我做了一点研究，得出的结论是，状态将是牌的数量，动作将是玩牌或从看不见的牌组中挑选牌。我在制定状态转换和观察模型时遇到困难。我认为，该观察模型将取决于过去的行为和观察（历史），但为此我需要放宽马尔可夫假设。我想知道放宽马尔可夫假设是不是更好的选择？另外，具体应该如何提前形成状态和观察model.Thanks

我认为在 POMDP 中，状态应该仍然是 "full truth"（所有牌的位置），转换只是游戏规则（包括其他玩家的策略？！）。观察当然不应该依赖于任何历史，只依赖于状态，否则你就违反了马尔可夫假设。 POMDP 的要点是代理可以通过分析历史来获取有关当前状态的信息。不过，我不太确定这是否或如何适用于 UNO。如果你知道打出了哪些牌以及它们的顺序，你还能通过历史获取信息吗？可能不会。不确定，但将此游戏视为 POMDP 可能没有意义，即使您使用专为 POMDP 设计的解决方案也是如此。

如何将 UNO 建模为 POMDP

How to model UNO as a POMDP

artificial-intelligence

reinforcement-learning

markov-decision-process