当我在状态之间的转换同时依赖于多个动作时,我该如何采取动作和状态?

How can I take actions and states when my transition between states depends on multiple actions simultaneously?

我有一个模型,其状态取决于多个动作;我可以将单个参数作为动作,但是如果状态转换取决于多个动作怎么办?

在强化学习技术中,例如 Q-Learning,每个状态变化都是概率性的并且取决于一个动作。这用于估计预期奖励(例如Q-value:Q-Learning中的Q(s,a))。

如果您没有大量的动作,您可以将可以同时发生的动作组合定义为新动作;例如如果你有 a1a2 你可以做一个动作 a3 同时应用两个动作的效果。 另一个想法是定义某种动作层次结构,其中更高。

您还应该看看一些科学著作,它们使用多个动作来进行状态转换,如 this thread 中所述。