深度Q学习算法中的phi是什么

What is phi in Deep Q-learning algorithm

我正在尝试使用 Java 从头开始制作一款学习型足球游戏，并且我正在尝试使用 Google DeepMind 的深度 Q 学习算法（虽然没有卷积网络）来实现强化学习).我已经构建了神经网络和 Q-learning，现在我正在尝试将它们总结在一起，但这段代码中有些地方我不明白。

Q 值不是通常用零而不是随机值初始化吗？或者这是否意味着神经网络的权重（第 2 行）

preprocessed sequenced Φ1 = Φ(s1) (line 4)

我只是想不通 Φ 在这个算法中代表什么。

指的是神经网络的权重
Φ(s)指的是预处理map/step，Φ为Φ(s1)的shorthand 每帧为 210x160 像素 x 128 色。论文中使用了一些预处理。他们消除闪烁，仅使用亮度，重新缩放和堆叠。查看 2015 年论文中的 'Methods' 部分。