在强化学习中导致相同状态的多个动作
Multiple actions that lead to the same state in Reinforcement Learning
我在这个领域相对较新,但找不到与此问题类似的内容。
问题:代理可以通过多种方式(一步)从状态 s1 移动到状态 s2。
例如,如果状态表示位置,则假设代理可以通过采取动作 a1 或 a2 之一,一步从 s1 表示的位置移动到 s2 中的一个位置。
这意味着在某些状态下执行的多个操作会导致相同的状态。
文献中有类似的吗?
是的,这种情况非常标准,可以通过任何强化学习算法进行管理。马尔可夫决策过程(这是通常用于在 RL 中对环境建模的数学框架)不假设存在可以从一个状态 s1 到另一个状态 s2 的唯一动作。
所以关于 RL 的任何文献也涵盖了您描述的案例。
例如,来自 Wikipedia article for Markov decision process 的 MDP 显示了一种情况,您可以通过两种方式一步从状态 s1 移动到状态 s2:
我在这个领域相对较新,但找不到与此问题类似的内容。
问题:代理可以通过多种方式(一步)从状态 s1 移动到状态 s2。 例如,如果状态表示位置,则假设代理可以通过采取动作 a1 或 a2 之一,一步从 s1 表示的位置移动到 s2 中的一个位置。 这意味着在某些状态下执行的多个操作会导致相同的状态。
文献中有类似的吗?
是的,这种情况非常标准,可以通过任何强化学习算法进行管理。马尔可夫决策过程(这是通常用于在 RL 中对环境建模的数学框架)不假设存在可以从一个状态 s1 到另一个状态 s2 的唯一动作。
所以关于 RL 的任何文献也涵盖了您描述的案例。
例如,来自 Wikipedia article for Markov decision process 的 MDP 显示了一种情况,您可以通过两种方式一步从状态 s1 移动到状态 s2: