2 个 Spark 作业可以同时使用单个 HDFS/S3 存储吗?
Can 2 Spark job use a single HDFS/S3 storage simultaneously?
我是 Spark 的初学者。我可以让 2 个 spark 作业同时使用一个 HDFS/S3 存储吗?一项工作将最新数据写入 S3/HDFS,其他工作将读取该数据以及来自另一个来源的输入数据以进行分析。
是的,您可以写入和读取同一数据源。数据只有在写入完成后才会出现。(在两者中 HDFS/S3)
为了同时使用这两个文件系统,您需要包含文件的协议。
例如spark.read.path("s3a://bucket/file")
and/or spark.write.path("hdfs:///tmp/data")
但是,您可以use S3 directly in place of HDFS via setting fs.defaultFS
我是 Spark 的初学者。我可以让 2 个 spark 作业同时使用一个 HDFS/S3 存储吗?一项工作将最新数据写入 S3/HDFS,其他工作将读取该数据以及来自另一个来源的输入数据以进行分析。
是的,您可以写入和读取同一数据源。数据只有在写入完成后才会出现。(在两者中 HDFS/S3)
为了同时使用这两个文件系统,您需要包含文件的协议。
例如spark.read.path("s3a://bucket/file")
and/or spark.write.path("hdfs:///tmp/data")
但是,您可以use S3 directly in place of HDFS via setting fs.defaultFS