AWS g4dn.4xlarge 实例中的驱动程序不足 space
Not enough space for drivers in AWS g4dn.4xlarge instance
前提:我在使用 Amazon AWS 或 Linux 一般分区方面有点新手。
因此,我需要在 g4dn.4xlarge 实例(具有单 Nvidia T4 GPU 的实例)上训练 Tensorflow 2.0 深度学习模型。
安装过程顺利,机器已正确初始化。
正如我在我的机器配置中看到的那样:
- 8GB 根文件夹;
- 200GB 的存储空间(我可以使用本指南在启动时安装 https://devopscube.com/mount-ebs-volume-ec2-instance/#:~:text=Step%201%3A%20Head%20over%20to,text%20box%20as%20shown%20below)
这是 lsblk
的结果:
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
loop0 7:0 0 33.3M 1 loop /snap/amazon-ssm-agent/3552
loop1 7:1 0 32.3M 1 loop /snap/snapd/11588
loop2 7:2 0 70.4M 1 loop /snap/lxd/19647
loop3 7:3 0 55.5M 1 loop /snap/core18/1997
loop4 7:4 0 55.4M 1 loop /snap/core18/2066
nvme1n1 259:0 0 209.6G 0 disk /newvolume
nvme0n1 259:1 0 8G 0 disk
└─nvme0n1p1 259:2 0 8G 0 part /
问题:我正在按照本指南https://medium.com/quantrium-tech/installing-tensorflow-2-with-nvidia-gpu-on-google-cloud-instance-a8dde3746f23安装必要的驱动程序以便能够将 GPU 与 tensorflow 一起使用,但我 运行 进入一个“没有 space 留在设备上”的问题,因为所需的所有软件包都超过了我可用的 space (8 GB)。
我试过的:我尝试在我挂载的磁盘 (/newvolume) 上安装驱动程序,但它们仍然进入根目录(可能是愚蠢的做法).我试过用一些粗略的指南合并这两个磁盘,但没有成功或进展。
问题:有什么方法可以合并这两个分区以获得 200GB 以上的根目录,这样我就可以安装必要的驱动程序而不会出现 space 问题?或者还有其他解决方法吗?
我的目标不是通过配置更多 space 的另一个实例来扩展根文件夹,而是利用 200GB 磁盘 (nvme1n1)。
非常感谢!
- 从 AWS EBS 控制台将现有 EC2 根 EBS 卷大小从 8 GB 扩展到 200 GB。
然后您可以分离并删除挂载在 /newvolume
上的 EBS 卷
或
- 终止此实例并启动新的 EC2。启动实例时,将根卷的大小从 8 GB 增加到 200 GB。
前提:我在使用 Amazon AWS 或 Linux 一般分区方面有点新手。
因此,我需要在 g4dn.4xlarge 实例(具有单 Nvidia T4 GPU 的实例)上训练 Tensorflow 2.0 深度学习模型。 安装过程顺利,机器已正确初始化。 正如我在我的机器配置中看到的那样:
- 8GB 根文件夹;
- 200GB 的存储空间(我可以使用本指南在启动时安装 https://devopscube.com/mount-ebs-volume-ec2-instance/#:~:text=Step%201%3A%20Head%20over%20to,text%20box%20as%20shown%20below)
这是 lsblk
的结果:
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
loop0 7:0 0 33.3M 1 loop /snap/amazon-ssm-agent/3552
loop1 7:1 0 32.3M 1 loop /snap/snapd/11588
loop2 7:2 0 70.4M 1 loop /snap/lxd/19647
loop3 7:3 0 55.5M 1 loop /snap/core18/1997
loop4 7:4 0 55.4M 1 loop /snap/core18/2066
nvme1n1 259:0 0 209.6G 0 disk /newvolume
nvme0n1 259:1 0 8G 0 disk
└─nvme0n1p1 259:2 0 8G 0 part /
问题:我正在按照本指南https://medium.com/quantrium-tech/installing-tensorflow-2-with-nvidia-gpu-on-google-cloud-instance-a8dde3746f23安装必要的驱动程序以便能够将 GPU 与 tensorflow 一起使用,但我 运行 进入一个“没有 space 留在设备上”的问题,因为所需的所有软件包都超过了我可用的 space (8 GB)。
我试过的:我尝试在我挂载的磁盘 (/newvolume) 上安装驱动程序,但它们仍然进入根目录(可能是愚蠢的做法).我试过用一些粗略的指南合并这两个磁盘,但没有成功或进展。
问题:有什么方法可以合并这两个分区以获得 200GB 以上的根目录,这样我就可以安装必要的驱动程序而不会出现 space 问题?或者还有其他解决方法吗?
我的目标不是通过配置更多 space 的另一个实例来扩展根文件夹,而是利用 200GB 磁盘 (nvme1n1)。
非常感谢!
- 从 AWS EBS 控制台将现有 EC2 根 EBS 卷大小从 8 GB 扩展到 200 GB。 然后您可以分离并删除挂载在 /newvolume 上的 EBS 卷
或
- 终止此实例并启动新的 EC2。启动实例时,将根卷的大小从 8 GB 增加到 200 GB。