GPU 上的 WinML 推理时间比 Tensorflow 慢 3 倍 python

WinML inference time on GPU 3 time slower than Tensorflow python

我尝试在 WinML 中使用在 python 上训练的张量流模型。我成功地将 protobuf 转换为 onnx。 获得以下性能结果:

CPU 上的推理大约需要 86 秒。

在性能工具上,与其他工具相比,WinML 似乎没有正确使用 GPU。 WinML 似乎使用 DirectML 作为后端(我们在 Nvidia GPU 分析器上观察到 DML 前缀)。 是否可以将 Cuda 推理引擎与 WinML 一起使用? 有没有人观察到类似的结果,WinML 在 GPU 上异常缓慢?

我得到了一些关于此 WinML 性能的答案。 我的网络使用仅在 Windows 2004 年才受 DirectML 支持的 LeakyRelu。 在 Windows 以前的版本中,此问题禁用了 DirectML 元命令的使用,因此性能不佳。 使用新的 windows 版本,我在 WinML 中获得了良好的性能。