即使在每一集中 epsilon 发生变化,Sarsa 是否仍然收敛?

Does Sarsa still converge even when epsilon changes during each episode?

我使用 n 步 Sarsa/sometimes Sarsa(lambda)

在对不同的 epsilon 计划进行了一些试验后,我发现当我根据已经采取的步数和最后 10 集的平均长度在一个集中更改 epsilon 时,代理学习得更快。

第 steps/beginning 集的数量少 => 低 epsilon
剧集的高数 steps/end => 高 epsilon

这比随着时间的推移从一集到另一集的 epsilon 衰减要好得多。

理论允许吗?

我认为是的,因为仍然定期访问所有州。

是的,即使您在每一集中更新 epsilon 参数,SARSA 算法也会收敛。要求是 epsilon 最终应该趋于零或一个小值。

在你的例子中,如果你在每一集中都从一个小的 epsilon 值开始,并随着步数的增加而增加它,我不太清楚你的算法是否会收敛到最优策略。我的意思是,在某些时候 epsilon 应该会减少。

"best" epsilon 时间表高度依赖于问题,并且没有一个时间表适用于所有问题。所以,最后,需要对问题有一些经验,可能还需要一些试错调整。