可以在进行 Spark 流式传输时移动输出文件，而不会导致 Spark 作业崩溃吗？

Can output files be moved while doing spark streaming, without crashing the spark job?

streaming
hdfs
apache-spark
spark-streaming

我有一个 Structured Streaming Spark Job 运行 Kafka 作为源，以追加模式输出 orc 文件。虽然工作是运行，但我会每隔一定时间将文件（想要）移动到一个 hdfs 位置。通过移动文件，spark 作业是否会因此崩溃或产生错误的输出？一旦 spark 写入文件，它是否会出于任何原因再次查看该文件？我想执行文件移动，但我不想以任何方式破坏 spark。

当您附加数据时，移动文件不会影响您的结构化流式传输作业，只要在您的输出文件夹中生成的 _spark_metadata 目录和检查点目录保持同步。

可以在进行 Spark 流式传输时移动输出文件，而不会导致 Spark 作业崩溃吗？

Can output files be moved while doing spark streaming, without crashing the spark job?

streaming

hdfs

apache-spark

spark-streaming