无函数逼近的梯度时间差 Lambda

Gradient Temporal Difference Lambda without Function Approximation

在 GTD(λ) 的每个形式中,似乎都根据函数逼近来定义它,使用 θ 和一些权重向量 w。

我理解对梯度方法的广泛需求来自于它们对线性函数逼近器的收敛特性,但我想利用 GTD 进行重要性采样。

是否可以在没有函数逼近的情况下利用 GTD?如果是这样,更新方程式是如何形式化的?

我理解当你说 "without function approximation" 时你的意思是将值函数 V 表示为 table。在那种情况下,V 的表格表示也可以看作是函数逼近器。

例如,如果我们将近似值函数定义为:

然后,使用表格表示,有与状态一样多的特征,给定状态 s 的特征向量对于除 s 之外的所有状态都为零(等于 1),并且参数向量 theta 存储每个状态的值。因此,GTD,以及其他算法,可以在不做任何修改的情况下以表格的方式使用。