Q-learning 中的探索和开发
exploration and exploitation in Q-learning
在 Q 学习算法中,动作的选择取决于当前状态和 Q 矩阵的值。我想知道这些 Q 值是仅在探索步骤中更新还是在开发步骤中也发生变化。
如果您阅读了 Q-learning 算法代码,例如来自 Sutton & Barto book:
很明显 Q 值总是独立更新的,无论所选择的动作是否是探索性的。
请注意第 "Choose a from s using policy derived from Q (e.g., epsilon-greedy)" 行表示该操作有时是探索性的。
在 Q 学习算法中,动作的选择取决于当前状态和 Q 矩阵的值。我想知道这些 Q 值是仅在探索步骤中更新还是在开发步骤中也发生变化。
如果您阅读了 Q-learning 算法代码,例如来自 Sutton & Barto book:
很明显 Q 值总是独立更新的,无论所选择的动作是否是探索性的。
请注意第 "Choose a from s using policy derived from Q (e.g., epsilon-greedy)" 行表示该操作有时是探索性的。