具有线性函数逼近的 Q 学习
Q-learning with linear function approximation
我想获得一些有关如何使用带有函数逼近的 Q 学习算法的有用说明。对于基本的 Q-learning 算法,我找到了例子,我想我确实理解了。如果使用函数逼近,我会遇到麻烦。有人可以通过一个简短的例子给我解释一下它是如何工作的吗?
我知道的:
- 我使用特征和参数代替 Q 值矩阵。
- 用参数和参数的线性组合进行近似
- 更新参数。
我查过这篇论文:Q-learning with function approximation
但是我找不到任何有用的教程如何使用它。
感谢帮助!
在我看来,this 是最好的入门参考之一。它写得很好,有几个伪代码示例。在您的情况下,您可以通过忽略资格跟踪来简化算法。
此外,根据我的经验和您的用例,Q-Learning 可能效果不佳(有时它需要大量的经验数据)。你可以试试 Fitted-Q value 为例,这是一个 batch 算法。
我想获得一些有关如何使用带有函数逼近的 Q 学习算法的有用说明。对于基本的 Q-learning 算法,我找到了例子,我想我确实理解了。如果使用函数逼近,我会遇到麻烦。有人可以通过一个简短的例子给我解释一下它是如何工作的吗?
我知道的:
- 我使用特征和参数代替 Q 值矩阵。
- 用参数和参数的线性组合进行近似
- 更新参数。
我查过这篇论文:Q-learning with function approximation
但是我找不到任何有用的教程如何使用它。
感谢帮助!
在我看来,this 是最好的入门参考之一。它写得很好,有几个伪代码示例。在您的情况下,您可以通过忽略资格跟踪来简化算法。
此外,根据我的经验和您的用例,Q-Learning 可能效果不佳(有时它需要大量的经验数据)。你可以试试 Fitted-Q value 为例,这是一个 batch 算法。