为什么老虎机问题在强化学习中也被称为 one-step/state MDP?
Why the bandit problem is also called a one-step/state MDP in Reinforcement learning?
What do we mean by 1 step/state MDP(Markov decision process) ?
在 bandit 中,过去拉动杠杆不会影响杠杆的输出或奖励。
奖励只取决于拉动哪个杠杆,与过去无关。
所以只有一种状态。
让我们考虑一个 n 动作 1 状态 MDP。无论采取何种行动,您都将保持相同的状态。不过,您将获得仅取决于您采取的行动的奖励。如果你想在这个设置中最大化长期奖励,你需要做的就是判断 n 个可用的选择(动作)是最好的。
这正是老虎机问题所在。
What do we mean by 1 step/state MDP(Markov decision process) ?
在 bandit 中,过去拉动杠杆不会影响杠杆的输出或奖励。
奖励只取决于拉动哪个杠杆,与过去无关。
所以只有一种状态。
让我们考虑一个 n 动作 1 状态 MDP。无论采取何种行动,您都将保持相同的状态。不过,您将获得仅取决于您采取的行动的奖励。如果你想在这个设置中最大化长期奖励,你需要做的就是判断 n 个可用的选择(动作)是最好的。
这正是老虎机问题所在。