GPU Ram 外的大型 cupy 数组运行

Large cupy array running out of GPU Ram

这是一个完全新手的问题，但我已经搜索了几天但找不到答案。

我正在使用 cupy 分配大量双精度数（大约 655k 行 x 4k 列），这在 ram 中大约为 16Gb。我在 p2.8xlarge（声称拥有 96GB GPU 内存和 8 个 GPU 的 aws 实例）上运行，但是当我分配数组时它给我内存不足错误。

发生这种情况是因为 96GB 内存被分成 8x12GB 块，每个 GPU 只能访问这些块吗？是否没有在 GPU 之间汇集 GPU RAM 的概念（就像多个 CPU 情况下的常规 RAM）？

经过相当多的尝试，我认为答案是否定的，您不能跨 GPU 池化内存。您可以在 GPU 和 CPU 之间来回移动数据，但是没有所有 GPU 都可以访问的统一 GPU 内存的概念