在 EMR EC2 实例上保存文件

Saving Files on EMR EC2 Instances

我在将文件从 S3 下载到我的 EMR 节点时遇到磁盘space 问题。我正在使用 c3.4xlarge 节点,它们应该有 160GB space,但是当在 PySpark 中使用 addFile 发送文件(8 450MB 文件)时,我收到 No space left on device 错误。

知道为什么会这样吗?

我在主节点上通过 AWS CLI 下载文件时注意到类似的问题。

怎么回事?

您确定将文件放在包含所有 space 的正确分区上吗?我相信您需要将它们复制到 /mnt 目录。其中一台服务器上的 运行 df -H 会告诉你你的 space 在哪里。