Sarsa 用神经网络解决 Mountain Car Task
Sarsa with neural network to solve the Mountain Car Task
我正在尝试实施 Sutton 书中描述的用于估计 q 的情景半梯度 Sarsa 来解决 Mountain Car Task
。为了近似 q
,我想使用 neural network
。因此,我想出了 this 代码。但遗憾的是,我的代理并没有真正学习如何解决任务。在某些情节中,解决方案的找到速度非常快(100-200 步),但有时代理需要超过 30k 步。我认为,我在实施过程中犯了一些基本错误,但我自己找不到。有人可以帮助我,并指出我实施中的 error/mistake 吗?
我通过改变网络结构解决了这个问题:我没有使用 (state, action)
对来预测它的 Q-value
,而是用 DQN
的方式改变了它它:我预测给定状态的所有三种可能动作的value
,然后根据这个预测选择动作。我以前的方法找不到问题,但至少现在可以了。
我正在尝试实施 Sutton 书中描述的用于估计 q 的情景半梯度 Sarsa 来解决 Mountain Car Task
。为了近似 q
,我想使用 neural network
。因此,我想出了 this 代码。但遗憾的是,我的代理并没有真正学习如何解决任务。在某些情节中,解决方案的找到速度非常快(100-200 步),但有时代理需要超过 30k 步。我认为,我在实施过程中犯了一些基本错误,但我自己找不到。有人可以帮助我,并指出我实施中的 error/mistake 吗?
我通过改变网络结构解决了这个问题:我没有使用 (state, action)
对来预测它的 Q-value
,而是用 DQN
的方式改变了它它:我预测给定状态的所有三种可能动作的value
,然后根据这个预测选择动作。我以前的方法找不到问题,但至少现在可以了。