GPU Ram 外的大型 cupy 数组 运行

Large cupy array running out of GPU Ram

这是一个完全新手的问题,但我已经搜索了几天但找不到答案。

我正在使用 cupy 分配大量双精度数(大约 655k 行 x 4k 列),这在 ram 中大约为 16Gb。我在 p2.8xlarge(声称拥有 96GB GPU 内存和 8 个 GPU 的 aws 实例)上 运行,但是当我分配数组时它给我内存不足错误。

发生这种情况是因为 96GB 内存被分成 8x12GB 块,每个 GPU 只能访问这些块吗?是否没有在 GPU 之间汇集 GPU RAM 的概念(就像多个 CPU 情况下的常规 RAM)?

经过相当多的尝试,我认为答案是否定的,您不能跨 GPU 池化内存。您可以在 GPU 和 CPU 之间来回移动数据,但是没有所有 GPU 都可以访问的统一 GPU 内存的概念