与不带 AVX 和 AVX2 的 tensorflow-gpu 相比,带 AVX 和 AVX2 的 tensorflow-gpu 有多快?
How faster is tensorflow-gpu with AVX and AVX2 compared with it without AVX and AVX2?
使用 AVX 和 AVX2 与不使用 AVX 和 AVX2 相比,tensorflow-gpu
的速度有多快?
我试图使用 Google 找到答案,但没有成功。很难为 Windows 重新编译 tensorflow-gpu
。所以,我想知道是否值得。
如果您的计算是 CPU 上的一个巨大的 matmul,您将在 Xeon V3 上获得 3 倍的加速(参见基准测试 here)。但也有可能看不到加速,大概是因为没有足够的时间花在 CPU.
上执行的高算术强度操作上
这是来自 "High Performance Models" 的 table 指南,用于在 CPU 上使用差异优化训练 resnet50。看起来你可以在最佳设置下获得 2.5 的加速
| Optimization | Data Format | Images/Sec | Intra threads | Inter Threads |
: : : (step time) : : :
| ------------ | ----------- | ------------ | ------------- | ------------- |
| AVX2 | NHWC | 6.8 (147ms) | 4 | 0 |
| MKL | NCHW | 6.6 (151ms) | 4 | 1 |
| MKL | NHWC | 5.95 (168ms) | 4 | 1 |
| AVX | NHWC | 4.7 (211ms) | 4 | 0 |
| SSE3 | NHWC | 2.7 (370ms) | 4 | 0 |
如果你能为Windows编译一个优化版本,在这个问题中提到它会有所帮助--https://github.com/yaroslavvb/tensorflow-community-wheels/issues/13,好像有这样的构建需求[=13] =]
使用 AVX 和 AVX2 与不使用 AVX 和 AVX2 相比,tensorflow-gpu
的速度有多快?
我试图使用 Google 找到答案,但没有成功。很难为 Windows 重新编译 tensorflow-gpu
。所以,我想知道是否值得。
如果您的计算是 CPU 上的一个巨大的 matmul,您将在 Xeon V3 上获得 3 倍的加速(参见基准测试 here)。但也有可能看不到加速,大概是因为没有足够的时间花在 CPU.
上执行的高算术强度操作上这是来自 "High Performance Models" 的 table 指南,用于在 CPU 上使用差异优化训练 resnet50。看起来你可以在最佳设置下获得 2.5 的加速
| Optimization | Data Format | Images/Sec | Intra threads | Inter Threads |
: : : (step time) : : :
| ------------ | ----------- | ------------ | ------------- | ------------- |
| AVX2 | NHWC | 6.8 (147ms) | 4 | 0 |
| MKL | NCHW | 6.6 (151ms) | 4 | 1 |
| MKL | NHWC | 5.95 (168ms) | 4 | 1 |
| AVX | NHWC | 4.7 (211ms) | 4 | 0 |
| SSE3 | NHWC | 2.7 (370ms) | 4 | 0 |
如果你能为Windows编译一个优化版本,在这个问题中提到它会有所帮助--https://github.com/yaroslavvb/tensorflow-community-wheels/issues/13,好像有这样的构建需求[=13] =]