正在 Google Colab 下载 S3 文件

Downloading S3 files in Google Colab

我正在做一个项目,碰巧一些数据是以 S3fileSystem 的形式提供的。我可以使用 S3FileSystem.open(path) 读取该数据。但是有360多个文件,读取一个文件至少需要3分钟。我想知道,有没有什么方法可以在我的系统中下载这些文件并从那里读取它们,而不是直接从 S3fileSystem 读取它们。还有一个原因,虽然我可以读取所有这些文件,但是一旦我在 colab 上的会话重新连接,我必须再次重新读取所有这些文件,因此会花费很多时间。我正在使用以下代码读取文件

fs_s3 = s3fs.S3FileSystem(anon=True)
s3path = 'file_name'
remote_file_obj = fs_s3.open(s3path, mode='rb')
ds = xr.open_dataset(remote_file_obj, engine= 'h5netcdf')

有没有办法下载这些文件?

您可以使用另一个 s3fs 装载存储桶,然后将文件复制到 Colab。

how to mount

挂载后,可以

!cp /s3/yourfile.zip /content/