如何从内部 Google Cloud Data Fusion 输出写入单个 CSV 文件

How to output write to a single CSV file from inside Google Cloud Data Fusion

我是 运行 通过 Google Cloud Data Fusion 的 ETL 管道。管道操作的快速摘要:

  1. 输入一个 csv 文件,这是一个名称列表
  2. 从 bigquery-public-data
  3. 获取 table
  4. 将两者结合在一起,然后将结果输出到一个table
  5. 同时将结果输出到 Group By,其中合并重复项,并对它们的分数求和。
  6. 将生成的作者姓名和分数列表输出到 table 和 Google Cloud Storage 存储桶中的 CSV 文件。

所有这些都应该正常工作,两个 table 显示正确的数据,并且可以查询。

但是,Group By 的 CSV 输出作为 37 个不同的部分进入 GCS 存储桶,每个部分都使用默认命名系统命名(“part-r-00000”到“part-r-00036”) .它们确实以 CSV 格式出现(text/csv 和 application/csv 都产生了可用的 CSV 文件。

我希望将输出作为具有给定名称 (author_rankings.csv) 的单个 csv 文件导出到 GCS 存储桶文件夹中。下面我附上了管道的屏幕截图和一些输出的图像。如果我可以提供任何其他信息,请告诉我。

感谢您的任何见解。

Data Fusion pipeline

Current Output as many files

您可以在 CSV 输出接收器之前使用 hub 中的 RDD repartitioner 插件来创建 1 个分区。这一个分区将写入单个文件。请查看插件的文档选项卡以获取更多详细信息。

感谢和问候,

萨加尔