可以将上传的数据保存在 Google Colab 中以便重新打开

Possibility to save uploaded data in Google Colab for reopening

我最近开始使用 2 台计算机(笔记本电脑和 PC)解决 Kaggle 竞赛。 Kaggle 为训练 ML 提供了大量数据。

对我来说最大的问题是下载数据,大约需要 30 GB,更大的问题是解压缩。我在笔记本电脑上工作,但我决定转向 PC。我保存了 ipynb 文件并关闭了笔记本电脑。

打开这个文件后,我发现所有解压后的数据都丢失了,我需要花2小时重新下载和解压。

是否可以用这个笔记本保存所有解压的数据?或者它可能存储在 Google 磁盘上的某个地方?

您可以利用 Google 驱动器的存储容量。 Colab 允许您将这些数据存储在您的云端硬盘上,并通过 colab notbook 访问它,如下所示:

from google.colab import drive
import matplotlib.image as mpimg 
import matplotlib.pyplot as plt
import pandas as pd

drive.mount('/content/gdrive')
img = mpimg.imread(r'/content/gdrive/My Drive/top.bmp')  # Reading image files
df = pd.read_csv('/content/gdrive/My Drive/myData.csv')  # Loading CSV

安装时,它会要求您访问特定的 url 以授予访问驱动器的权限。只需粘贴返回的令牌即可。只需要做一次。

关于 colab 的最好的事情是你也可以从代码中 运行 shell 命令,你需要做的就是在命令前加上 ! (bang)。当你需要解压缩等时很有用

import os
os.chdir('gdrive/My Drive/data')  #change dir
!ls
!unzip -q iris_data.zip 
df3 = pd.read_csv('/content/gdrive/My Drive/data/iris_data.csv')

注意: 由于您已指定数据约为 30GB,如果您使用 Google 提供的免费套餐(因为它每个帐户仅提供 15GB)您可能需要寻找其他地方。

您还可以访问此特定问题以获取有关 的更多解决方案。