Spark foreach 分区连接改进

Spark foreachpartition connection improvements

我写了一个 spark 作业，它执行以下操作

当我运行这个工作时，它创建了三个火花阶段

第一阶段 - 将近 45 秒。执行一个独特的第二阶段 - mapToPair 和 reducebykey = 需要 1.5 分钟

第三阶段 = 需要 19 分钟

我做了什么

它占用了整个工作时间的 60% 以上

我正在 foreachPartition 中创建 SNS/SQS 连接以减少连接数。我们有更好的方法吗

我无法在驱动程序上创建连接对象，因为它们不可序列化

我没有使用executor 9，executor core 15，driver memory 2g，executor memory 5g

我用的是16核64g内存集群大小 1 master 9 slave 所有配置相同 EMR 部署 spark 1.6

听起来您想为每个节点设置一个 SNS/SQS 连接，然后用它来处理每个节点上的所有数据。

我认为 foreachPartition 在这里是正确的想法，但您可能希望事先合并您的 RDD。这将在不混洗的情况下折叠同一节点上的分区，并允许您避免启动额外的 SNS/SQS 连接。