2 个 Spark 作业可以同时使用单个 HDFS/S3 存储吗?

Can 2 Spark job use a single HDFS/S3 storage simultaneously?

我是 Spark 的初学者。我可以让 2 个 spark 作业同时使用一个 HDFS/S3 存储吗?一项工作将最新数据写入 S3/HDFS,其他工作将读取该数据以及来自另一个来源的输入数据以进行分析。

是的,您可以写入和读取同一数据源。数据只有在写入完成后才会出现。(在两者中 HDFS/S3)

为了同时使用这两个文件系统,您需要包含文件的协议。

例如spark.read.path("s3a://bucket/file") and/or spark.write.path("hdfs:///tmp/data")

但是,您可以use S3 directly in place of HDFS via setting fs.defaultFS