Q 学习中的学习曲线

Learning Curve in Q-learning

我的问题是我用 C++ 编写了带有 epsilon 贪心策略的 Q 学习算法,现在我必须绘制 Q 值的学习曲线。我到底应该绘制什么,因为我有一个 11x5 Q 矩阵,所以我应该取一个 Q 值并绘制它的学习曲线,还是我应该将整个矩阵用于学习曲线,你能指导我吗? 谢谢

RL 中的学习曲线通常是 returns 随着时间的推移,而不是 Q-losses 或类似的东西。所以你应该运行你的环境,计算总奖励(又名return)并在相应的时间绘制它。