强化学习 - 代理如何知道选择哪个动作?
Reinforcement Learning - How does an Agent know which action to pick?
我正在尝试理解 Q-Learning
基本更新公式:
Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]
我理解公式及其作用,但我的问题是:
智能体如何知道选择Q(st, at)?
我知道代理遵循某种策略 π,但是首先您如何创建该策略?
- 我的代理人在玩西洋跳棋,所以我专注于无模型算法。
- 代理只知道它所处的当前状态。
- 我了解 当 它执行一个操作时,您更新该实用程序,但它是如何知道首先要执行该操作的。
目前我有:
- 检查您可以从该状态进行的每一步操作。
- 选择效用最高的一步。
- 更新移动的效用。
然而,这并没有真正解决多少问题,你仍然卡在本地minimum/maximums。
所以,为了四舍五入,我的主要问题是:
对于一个什么都不知道并使用无模型算法的代理,您如何生成一个初始策略,以便它知道要采取什么行动?
该更新公式递增地计算每个状态下每个动作的期望值。贪心策略总是选择价值最高的行动。当您已经了解了价值观时,这是最好的策略。学习过程中最常用的策略是 ε-greedy 策略,它选择概率为 1-ε 的最高值动作,以及概率为 ε 的随机动作。
我正在尝试理解 Q-Learning
基本更新公式:
Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]
我理解公式及其作用,但我的问题是:
智能体如何知道选择Q(st, at)?
我知道代理遵循某种策略 π,但是首先您如何创建该策略?
- 我的代理人在玩西洋跳棋,所以我专注于无模型算法。
- 代理只知道它所处的当前状态。
- 我了解 当 它执行一个操作时,您更新该实用程序,但它是如何知道首先要执行该操作的。
目前我有:
- 检查您可以从该状态进行的每一步操作。
- 选择效用最高的一步。
- 更新移动的效用。
然而,这并没有真正解决多少问题,你仍然卡在本地minimum/maximums。
所以,为了四舍五入,我的主要问题是:
对于一个什么都不知道并使用无模型算法的代理,您如何生成一个初始策略,以便它知道要采取什么行动?
该更新公式递增地计算每个状态下每个动作的期望值。贪心策略总是选择价值最高的行动。当您已经了解了价值观时,这是最好的策略。学习过程中最常用的策略是 ε-greedy 策略,它选择概率为 1-ε 的最高值动作,以及概率为 ε 的随机动作。