协处理器加速器与 GPU 的比较

Coprocessor accelerators compared to GPUs

Intel Xeon-Phi 这样的协处理器是否应该像 GPU 一样使用,因此应该卸载大量执行 单个内核的块,因此只有协处理器处理的总吞吐量会导致加速,卸载独立线程(任务)也会提高效率吗?

Xeon Phi 需要很大程度的功能并行性(不同线程)和向量并行性 (SIMD)。由于核心本质上是增强型奔腾处理器,串行代码 运行s 很慢。下一代会有所改变,因为它将使用更快、更现代的内核。当前的 Xeon Phi 和任何协处理器一样也存在 I/O 瓶颈,必须通过 PCIe 总线进行通信。

因此,虽然您可以将内核卸载到每个处理器并利用 512 位矢量化(类似于 GPGPU),但您也可以将代码分成许多不同的功能块(即不同的 codes/kernels)和运行 它们在不同的英特尔至强融核内核集上。同样,不同的代码块还必须利用 512 位 SIMD 向量。

Xeon Phi 也作为本机处理器运行,因此您可以通过挂载 NFS 目录树、卡与集群中其他处理器之间的通信使用 TCP/IP、使用 MPI 等来访问其他资源。请注意,这不是 'offload' 而是本机执行。但是 PCIe 总线仍然是一个重要的瓶颈限制 I/O。

总而言之,

  • 您可以使用类似于 GPGPU 使用的卸载模型,
  • Xeon Phi 本身也可以支持功能并行(多个内核),但每个内核还必须利用 512 位 SIMD。
  • 您还可以编写本机代码并使用 MPI,将 Xeon Phi 视为常规(非卸载)节点(始终记住 PCIe I/O 瓶颈)