深度Q学习算法中的phi是什么

What is phi in Deep Q-learning algorithm

我正在尝试使用 Java 从头开始​​制作一款学习型足球游戏,并且我正在尝试使用 Google DeepMind 的深度 Q 学习算法(虽然没有卷积网络)来实现强化学习).我已经构建了神经网络和 Q-learning,现在我正在尝试将它们总结在一起,但这段代码中有些地方我不明白。

  1. Q 值不是通常用零而不是随机值初始化吗?或者这是否意味着神经网络的权重(第 2 行)
  2. 是什么意思

preprocessed sequenced Φ1 = Φ(s1) (line 4)

我只是想不通 Φ 在这个算法中代表什么。

  1. 指的是神经网络的权重
  2. Φ(s)指的是预处理map/step,Φ为Φ(s1)的shorthand 每帧为 210x160 像素 x 128 色。论文中使用了一些预处理。他们消除闪烁,仅使用亮度,重新缩放和堆叠。 查看 2015 年论文中的 'Methods' 部分。