看不懂这行流行的深度Q学习程序

Can not understand this line of a popular deep Q learning program

https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82

我花了很多时间来理解它。

为什么要使用tf.multiply

我找不到支持这种乘法运算的数学。

每个动作都有一个Q_value.

并且动作输入a是一键的。

所以这一行是选择了'hot'Q_value。