如何从内部 Google Cloud Data Fusion 输出写入单个 CSV 文件

How to output write to a single CSV file from inside Google Cloud Data Fusion

我是运行通过 Google Cloud Data Fusion 的 ETL 管道。管道操作的快速摘要：

所有这些都应该正常工作，两个 table 显示正确的数据，并且可以查询。

但是，Group By 的 CSV 输出作为 37 个不同的部分进入 GCS 存储桶，每个部分都使用默认命名系统命名（“part-r-00000”到“part-r-00036”） .它们确实以 CSV 格式出现（text/csv 和 application/csv 都产生了可用的 CSV 文件。

我希望将输出作为具有给定名称 (author_rankings.csv) 的单个 csv 文件导出到 GCS 存储桶文件夹中。下面我附上了管道的屏幕截图和一些输出的图像。如果我可以提供任何其他信息，请告诉我。

感谢您的任何见解。

Data Fusion pipeline

Current Output as many files

您可以在 CSV 输出接收器之前使用 hub 中的 RDD repartitioner 插件来创建 1 个分区。这一个分区将写入单个文件。请查看插件的文档选项卡以获取更多详细信息。

感谢和问候，

萨加尔