RL 代理的严重损失

Critic Loss for RL Agent

当我为各种问题实施代理时...我发现我的 actor 损失正在按预期减少。但是我的 critic loss 一直在增加,尽管学到的策略非常多。这发生在 DDPG , PPO 等

想知道为什么我的评论家损失越来越大。

我尝试使用超参数,它实际上让我的政策变得更糟。

在强化学习中,您通常真的不应该关注损失值的精确值。它们不像在监督学习中那样提供信息。损失值应该只用于为您的 RL 方法计算正确的更新,但它们实际上并没有给您任何关于您做得好坏的真实指示。

这是因为在强化学习中,你的学习目标往往是非固定的;它们通常是您正在修改的策略的函数(希望有所改进!)。很有可能,随着 RL 代理性能的提高,您的损失实际上会增加。由于其改进,它可能会发现其搜索的新部分 space,从而导致您的代理以前完全没有注意到的新目标值。

你唯一真正可靠的衡量你的代理表现如何的指标是它在评估运行中收集的returns。