Spark AWS emr 检查点位置

Question

我是运行 EMR 上的 spark 作业，但需要创建一个检查点。我尝试使用 s3 但收到此错误消息

17/02/24 14:34:35 ERROR ApplicationMaster: User class threw exception: 
java.lang.IllegalArgumentException: Wrong FS: s3://spark-
jobs/checkpoint/31d57e4f-dbd8-4a50-ba60-0ab1d5b7b14d/connected-
components-e3210fd6/2, expected: hdfs://ip-172-18-13-18.ec2.internal:8020
java.lang.IllegalArgumentException: Wrong FS: s3://spark-
jobs/checkpoint/31d57e4f-dbd8-4a50-ba60-0ab1d5b7b14d/connected-
components-e3210fd6/2, expected: hdfs://ip-172-18-13-18.ec2.internal:8020

这是我的示例代码

...
val sparkConf = new SparkConf().setAppName("spark-job")
  .set("spark.default.parallelism", (CPU * 3).toString)
  .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
  .registerKryoClasses(Array(classOf[Member], classOf[GraphVertex], classOf[GraphEdge]))
  .set("spark.dynamicAllocation.enabled", "true")


implicit val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

sparkSession.sparkContext.setCheckpointDir("s3://spark-jobs/checkpoint")
....

如何在 AWS EMR 上设置检查点？

Answer 1

尝试使用 AWS 身份验证 luke：

val hadoopConf: Configuration = new Configuration()
  hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
  hadoopConf.set("fs.s3n.awsAccessKeyId", "id-1")
  hadoopConf.set("fs.s3n.awsSecretAccessKey", "secret-key")

  sparkSession.sparkContext.getOrCreate(checkPointDir, () => 
      { createStreamingContext(checkPointDir, config) }, hadoopConf)

Answer 2

Spark 现在有一个已修复的错误，这意味着您只能检查默认的 FS，而不能检查任何其他文件系统（如 S3）。它在 master 中已修复，不知道向后移植。

如果它让你感觉更好，检查点的工作方式：写入然后重命名（）在对象存储上足够慢你可能会发现自己在本地更好地检查点然后自己上传到 s3。

Answer 3

master 分支中有一个修复程序，也允许检查点到 s3。我能够针对它进行构建并且它有效，所以这应该是下一个版本的一部分。

Spark AWS emr 检查点位置

Spark AWS emr checkpoint location

scala

amazon-emr

emr

apache-spark

graphframes