不同 epsilon 值对 Q-learning 和 SARSA 的影响

Effect of different epsilon value for Q-learning and SARSA

由于我是这个领域的新手,所以我对不同的 epsilon 值如何影响 SARSA 和 Qlearning 与 epsilon 贪心算法的动作选择之间的影响存在疑问。

据我了解,当epsilon等于0时,动作总是根据Q派生的策略来选择。因此,Q-learning首先更新Q,然后根据更新后的Q选择下一个动作。在另一方面,SARSA 选择下一个动作并更新 Q.

当ε等于1时呢? ε 从 0 增加到 1?

谢谢!

ε-greedy 策略选择概率为 ε 的随机动作或概率为 1-ε 的最知名动作。在 ε=1 时,它将始终选择随机动作。这个值在探索和利用之间做出权衡:你想使用你拥有的知识,但你也想寻找更好的选择。