可以在进行 Spark 流式传输时移动输出文件,而不会导致 Spark 作业崩溃吗?
Can output files be moved while doing spark streaming, without crashing the spark job?
我有一个 Structured Streaming Spark Job 运行 Kafka 作为源,以追加模式输出 orc 文件。虽然工作是 运行,但我会每隔一定时间将文件(想要)移动到一个 hdfs 位置。通过移动文件,spark 作业是否会因此崩溃或产生错误的输出?一旦 spark 写入文件,它是否会出于任何原因再次查看该文件?我想执行文件移动,但我不想以任何方式破坏 spark。
当您附加数据时,移动文件不会影响您的结构化流式传输作业,只要在您的输出文件夹中生成的 _spark_metadata 目录和检查点目录保持同步。
我有一个 Structured Streaming Spark Job 运行 Kafka 作为源,以追加模式输出 orc 文件。虽然工作是 运行,但我会每隔一定时间将文件(想要)移动到一个 hdfs 位置。通过移动文件,spark 作业是否会因此崩溃或产生错误的输出?一旦 spark 写入文件,它是否会出于任何原因再次查看该文件?我想执行文件移动,但我不想以任何方式破坏 spark。
当您附加数据时,移动文件不会影响您的结构化流式传输作业,只要在您的输出文件夹中生成的 _spark_metadata 目录和检查点目录保持同步。