Q-table表示法

Q-table representation

据我了解 Q-learning,Q 值是 "how good" 特定状态-动作对的度量。这通常以以下方式之一在 table 中表示(见图):

  1. 两种表述都有效吗?
  2. 如果Q-table作为状态到状态的转换table给出(如图中最上面的q-table,你如何确定最佳动作),特别是如果状态转换不是确定性的(即从一个状态采取行动可以让你在不同的时间进入不同的状态?)
  1. 没有。通常,一个动作并不等同于到一个特定状态的转换。动作的数量可能与状态不同,相同的动作可能会导致不同的状态,具体取决于它在哪个状态下执行,不同的动作可能会导致相同的状态。过渡也可以是随机的。

  2. 见(1).