POMDP 中 Values 行的含义是什么?

What is the meaning of Values row in POMDP?

我正在研究 POMDP 文件格式和休闲 this 以及许多其他链接。我已经理解了所有内容,但我无法理解文件第二行中的值代表什么。它的值是奖励或成本。在别处找不到答案。感到困惑,因为在一份文件中应该有成本和回报,不是吗?为什么我必须指定其中之一?在文件的其余部分也没有使用该值。

在 POMDP 中,您可以使用 rewardscosts 来定义学习目标。唯一的区别是,在第一种情况下,您尝试最大化 value function, whereas for the cost you try to minimize the value function.

POMDP file中你可以定义你使用哪一个:

values: [ reward, cost ]

当求解器读取 POMDP file 时,它会将 R: 定义的值解释为奖励或成本。