如何将 UNO 建模为 POMDP

How to model UNO as a POMDP

我正在尝试将 UNO 纸牌游戏建模为部分可观察马尔可夫决策过程 (POMDP)。我做了一点研究,得出的结论是,状态将是牌的数量,动作将是玩牌或从看不见的牌组中挑选牌。我在制定状态转换和观察模型时遇到困难。我认为,该观察模型将取决于过去的行为和观察(历史),但为此我需要放宽马尔可夫假设。我想知道放宽马尔可夫假设是不是更好的选择?另外,具体应该如何提前形成状态和观察model.Thanks

我认为在 POMDP 中,状态应该仍然是 "full truth"(所有牌的位置),转换只是游戏规则(包括其他玩家的策略?!)。观察当然不应该依赖于任何历史,只依赖于状态,否则你就违反了马尔可夫假设。 POMDP 的要点是代理可以通过分析历史来获取有关当前状态的信息。不过,我不太确定这是否或如何适用于 UNO。如果你知道打出了哪些牌以及它们的顺序,你还能通过历史获取信息吗?可能不会。不确定,但将此游戏视为 POMDP 可能没有意义,即使您使用专为 POMDP 设计的解决方案也是如此。