amazon emr - 创建集群是否使用数据传出?

amazon emr - does creating a cluster use data transfer out?

我在 ec2 上使用带有 emr 的 aws 并收取大量数据传输费用,几天大约 900 GB,但我没有发送任何数据。

我唯一要做的就是创建一个 emr 集群并将数据从 s3 下载到它。

我发现 this 关于成本的问题,发现当您不发送任何数据时,数据传输到互联网是不应该发生的!

我一直看到向许多 aws 区域和互联网传输数据的多项费用,但我找不到任何参考资料来说明原因。它可以是什么?

很可能是您正在访问不同区域的 S3 存储桶。用于您的数据或用于写入 EMR 集群日志。

有两种诊断方法。首先当然是看你的EMR集群配置了。

其次是启用 VPC flow logs,它将告诉您数据的确切来源和目的地。但是,这些可能会受到限制:如果您 运行 所有流量都通过 NAT,那么它们只会显示 NAT,而不是最终 source/destination.

第三种方法是使用阻止出站连接的安全组,并查看您的日志以查看失败的原因。