为什么这个深度学习模型在 CPU 上的推理速度比 GPU 快?

Why would this deep learning model performs faster inference on CPU than GPU?

论文中:https://arxiv.org/pdf/1609.08144.pdf "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation", 2016

在第 12 页,在 Table 1 中,列出了他们 2016 年神经翻译模型推理的解码时间在 CPU 上几乎比 GPU 快 3 倍。他们的模型在深度轴上跨 GPU 高度并行化。

有没有人有什么见解?

这是否也意味着一般来说,在 GPU 上训练时,最好在 CPU 上执行神经网络的测试步骤?对于仅在 1 个 GPU 上而不是在多个 GPU 上训练的模型也是如此吗?

他们使用了 88 个 CPU 核心并将其表示为 CPU,而只使用了一个 GPU。因此,理论上的峰值性能并没有什么不同。接下来,数据必须加载到 GPU 中,这是一种开销,CPU 不需要。这两个因素的结合使 CPU 过程性能更好。