如何从内部 Google Cloud Data Fusion 输出写入单个 CSV 文件
How to output write to a single CSV file from inside Google Cloud Data Fusion
我是 运行 通过 Google Cloud Data Fusion 的 ETL 管道。管道操作的快速摘要:
- 输入一个 csv 文件,这是一个名称列表
- 从 bigquery-public-data
获取 table
- 将两者结合在一起,然后将结果输出到一个table
- 同时将结果输出到 Group By,其中合并重复项,并对它们的分数求和。
- 将生成的作者姓名和分数列表输出到 table 和 Google Cloud Storage 存储桶中的 CSV 文件。
所有这些都应该正常工作,两个 table 显示正确的数据,并且可以查询。
但是,Group By 的 CSV 输出作为 37 个不同的部分进入 GCS 存储桶,每个部分都使用默认命名系统命名(“part-r-00000”到“part-r-00036”) .它们确实以 CSV 格式出现(text/csv 和 application/csv 都产生了可用的 CSV 文件。
我希望将输出作为具有给定名称 (author_rankings.csv) 的单个 csv 文件导出到 GCS 存储桶文件夹中。下面我附上了管道的屏幕截图和一些输出的图像。如果我可以提供任何其他信息,请告诉我。
感谢您的任何见解。
Data Fusion pipeline
Current Output as many files
您可以在 CSV 输出接收器之前使用 hub 中的 RDD repartitioner 插件来创建 1 个分区。这一个分区将写入单个文件。请查看插件的文档选项卡以获取更多详细信息。
感谢和问候,
萨加尔
我是 运行 通过 Google Cloud Data Fusion 的 ETL 管道。管道操作的快速摘要:
- 输入一个 csv 文件,这是一个名称列表
- 从 bigquery-public-data 获取 table
- 将两者结合在一起,然后将结果输出到一个table
- 同时将结果输出到 Group By,其中合并重复项,并对它们的分数求和。
- 将生成的作者姓名和分数列表输出到 table 和 Google Cloud Storage 存储桶中的 CSV 文件。
所有这些都应该正常工作,两个 table 显示正确的数据,并且可以查询。
但是,Group By 的 CSV 输出作为 37 个不同的部分进入 GCS 存储桶,每个部分都使用默认命名系统命名(“part-r-00000”到“part-r-00036”) .它们确实以 CSV 格式出现(text/csv 和 application/csv 都产生了可用的 CSV 文件。
我希望将输出作为具有给定名称 (author_rankings.csv) 的单个 csv 文件导出到 GCS 存储桶文件夹中。下面我附上了管道的屏幕截图和一些输出的图像。如果我可以提供任何其他信息,请告诉我。
感谢您的任何见解。
Data Fusion pipeline
Current Output as many files
您可以在 CSV 输出接收器之前使用 hub 中的 RDD repartitioner 插件来创建 1 个分区。这一个分区将写入单个文件。请查看插件的文档选项卡以获取更多详细信息。
感谢和问候,
萨加尔