EMR 上的 Spark:当节点数量增加时,EMR 中 运行 数据的时间并未减少

Spark on EMR : Time for running data in EMR didn't reduce when no of nodes increases

我的 Spark 程序从 S3 获取大量包含 JSON 数据的 zip 文件。它以火花转换的形式对数据进行一些清理。之后,我将其保存为镶木地板文件。当我 运行 我的程序在 AWS 的 10 个节点 8GB 配置中有 1GB 数据时,大约需要 11 分钟。我将其更改为 20 个节点 32GB 配置。仍然需要大约 10 分钟。仅减少约 1 分钟。为什么会有这种行为?

因为添加更多机器并不总是解决方案,添加更多机器会导致网络上不必要的数据传输,这在大多数情况下可能成为瓶颈。

此外,1GB 的数据对于执行可伸缩性和性能基准测试来说也不是那么大。