点积是否比 Arm Mali GPU 中的 MAD（乘加）指令快？

Are dot products faster than MAD (Multiply And Add) instruction in Arm Mali GPUs?

我发现点积与向量加法、向量乘法是同一个循环（每个内核每个 ALU 只有一个循环），但不是疯狂的。所以我很好奇疯狂指令有多少个周期。

我使用点积来提高 OpenCL 性能而不是疯狂，但我的性能很差。使用 mad，我项目中内核的耗时是 58ms（平均，多次测试，在 arm mali G77 Bifrost 上）。点积为 68 毫秒。所以如果你有不同的结论，请附上。