POMDP 中 Values 行的含义是什么?
What is the meaning of Values row in POMDP?
我正在研究 POMDP 文件格式和休闲 this 以及许多其他链接。我已经理解了所有内容,但我无法理解文件第二行中的值代表什么。它的值是奖励或成本。在别处找不到答案。感到困惑,因为在一份文件中应该有成本和回报,不是吗?为什么我必须指定其中之一?在文件的其余部分也没有使用该值。
在 POMDP 中,您可以使用 rewards 或 costs 来定义学习目标。唯一的区别是,在第一种情况下,您尝试最大化 value function, whereas for the cost you try to minimize the value function.
在POMDP file中你可以定义你使用哪一个:
values: [ reward, cost ]
当求解器读取 POMDP file 时,它会将 R:
定义的值解释为奖励或成本。
我正在研究 POMDP 文件格式和休闲 this 以及许多其他链接。我已经理解了所有内容,但我无法理解文件第二行中的值代表什么。它的值是奖励或成本。在别处找不到答案。感到困惑,因为在一份文件中应该有成本和回报,不是吗?为什么我必须指定其中之一?在文件的其余部分也没有使用该值。
在 POMDP 中,您可以使用 rewards 或 costs 来定义学习目标。唯一的区别是,在第一种情况下,您尝试最大化 value function, whereas for the cost you try to minimize the value function.
在POMDP file中你可以定义你使用哪一个:
values: [ reward, cost ]
当求解器读取 POMDP file 时,它会将 R:
定义的值解释为奖励或成本。