看不懂这行流行的深度Q学习程序
Can not understand this line of a popular deep Q learning program
https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82
我花了很多时间来理解它。
为什么要使用tf.multiply
?
我找不到支持这种乘法运算的数学。
每个动作都有一个Q_value.
并且动作输入a
是一键的。
所以这一行是选择了'hot'Q_value。
https://github.com/yenchenlin/DeepLearningFlappyBird/blob/master/deep_q_network.py#L82
我花了很多时间来理解它。
为什么要使用tf.multiply
?
我找不到支持这种乘法运算的数学。
每个动作都有一个Q_value.
并且动作输入a
是一键的。
所以这一行是选择了'hot'Q_value。