为什么老虎机问题在强化学习中也被称为 one-step/state MDP?

Why the bandit problem is also called a one-step/state MDP in Reinforcement learning?

What do we mean by 1 step/state MDP(Markov decision process) ?

在 bandit 中,过去拉动杠杆不会影响杠杆的输出或奖励。

奖励只取决于拉动哪个杠杆,与过去无关。

所以只有一种状态。

让我们考虑一个 n 动作 1 状态 MDP。无论采取何种行动,您都将保持相同的状态。不过,您将获得仅取决于您采取的行动的奖励。如果你想在这个设置中最大化长期奖励,你需要做的就是判断 n 个可用的选择(动作)是最好的。

这正是老虎机问题所在。