使用 Google Cloud Dataflow 合并 Google Cloud Storage 中的文件

Merging files in Google Cloud Storage using Google Cloud Dataflow

Nathan Marz 在他的书“Big Data" describes how to maintain files of data in HDFS and how to optimize files' sizes to be as near native HDFS block size as possible using his Pail library running on top of Map Reduce.

  1. 是否可以在 Google Cloud Storage 中获得相同的结果?
  2. 为此,我可以使用 Google Cloud Dataflow 而不是 MapReduce 吗?

Google Cloud Storage 允许复合对象,让您可以将一个对象存储在多个部分中,然后再将它们组合起来,最多一次可以组合 32 个部分,总共可以组合 1024 个组成部分。此功能在 API.

中可用

Composite Objects and Parallel Uploads - Google Cloud Platform Developer's Guide