Q 学习中的学习曲线

Learning Curve in Q-learning

我的问题是我用 C++ 编写了带有 epsilon 贪心策略的 Q 学习算法，现在我必须绘制 Q 值的学习曲线。我到底应该绘制什么，因为我有一个 11x5 Q 矩阵，所以我应该取一个 Q 值并绘制它的学习曲线，还是我应该将整个矩阵用于学习曲线，你能指导我吗？谢谢

RL 中的学习曲线通常是 returns 随着时间的推移，而不是 Q-losses 或类似的东西。所以你应该运行你的环境，计算总奖励（又名return）并在相应的时间绘制它。