如何在 RL 程序中设置即时奖励?

How should one set up the immediate reward in a RL program?

我希望我的 RL 智能体尽快达到目标,同时尽量减少它使用特定资源 T 的次数(尽管有时这是必要的)。

我想将即时奖励设置为每步 -1,如果代理使用 T 则额外 -1,如果达到目标则为 0。

但是附加的-1完全是任意的,我该如何决定agent应该因为使用T而受到多少惩罚?

你应该使用模仿你自己价值观的奖励函数。如果资源很昂贵(对你来说很有价值),那么使用它的惩罚应该很严厉。时间也是如此(如果你考虑一下,这也是一种资源)。

如果两种惩罚(一种是时间消耗,一种是资源消耗)之间的比例与您对这些资源的重视程度相一致,那么代理人将完全按照您的利益行事。如果你弄错了(因为你可能不知道资源的精确成本,也不知道缓慢学习的精确成本),那么它会努力寻找伪最优解而不是最优解,这在很多情况下是好的