如何在 RStudio Server 中直接访问 AWS S3 存储桶作为数据集?

How can directly access AWS S3 buckets as a dataset in RStudioServer?

我在一个 aws 帐户上有多个 s3 存储桶,我还有一台 EC2 机器 运行 Rstudio Pro。我想访问我的 S3 存储桶(每个存储桶有数 TB 的数据)。

我希望能够设置 rstudio 以将存储桶装载为数据集,而无需在每次读取之前将整个数据复制到 EBS 中。

任何帮助都会很棒。

我使用 Python 完成这些类型任务的打包工具是 boto。而且看起来 R 没有移植版本。

我还没有尝试过这个,但如果你觉得它有用...

RS3

您似乎可以尝试 cloudyr project, https://github.com/cloudyr/aws.s3 中的 aws.s3 包。

有了这个,假设您的数据在私有存储桶中,您可以按如下方式访问它:

aws.s3::getbucket(
bucket = 'hpk',
key = YOUR_AWS_ACCESS_KEY,
secret = YOUR_AWS_SECRET_ACCESS_KEY
)

希望这能帮助您访问存储桶中的数据。然后您还可以尝试 aws.ec2 与您的 ec2 机器通信。