Mosaic Decisions Azure BLOB 编写器节点创建多个文件
Mosaic Decisions Azure BLOB writer node creating multiple files
我正在使用马赛克决策数据流功能从 Azure blob 读取文件,进行一些转换并将该数据写回 Azure。它工作正常,除了在我给出的输出文件路径中,它创建了一个文件夹,我可以看到许多文件的名称中带有一些奇怪的“part-000”等。我需要的是该输出位置中的单个文件——不多。有解决办法吗?
Mosaic-Decisions 使用 apache spark 作为其后端执行引擎。在 Spark 中,读取的数据帧被分成多个分区,这些分区被并行写入输出位置。这就是它在目标位置创建多个文件的原因 "part-0000", "part-0001" 等(这里的部分代表分区)。
解决方法是检查写入器节点中的 "combine-output-files-into-one"。这会将所有零件文件组合成一个大文件。但是请谨慎使用它,并且只有在您确实需要单个文件时才使用它 - 因为这会带来性能折衷。
我正在使用马赛克决策数据流功能从 Azure blob 读取文件,进行一些转换并将该数据写回 Azure。它工作正常,除了在我给出的输出文件路径中,它创建了一个文件夹,我可以看到许多文件的名称中带有一些奇怪的“part-000”等。我需要的是该输出位置中的单个文件——不多。有解决办法吗?
Mosaic-Decisions 使用 apache spark 作为其后端执行引擎。在 Spark 中,读取的数据帧被分成多个分区,这些分区被并行写入输出位置。这就是它在目标位置创建多个文件的原因 "part-0000", "part-0001" 等(这里的部分代表分区)。
解决方法是检查写入器节点中的 "combine-output-files-into-one"。这会将所有零件文件组合成一个大文件。但是请谨慎使用它,并且只有在您确实需要单个文件时才使用它 - 因为这会带来性能折衷。