使用 DataFlow 将 GCP 中的巨大 Bigtable 数据库从一个帐户迁移到另一个帐户

Migrating a huge Bigtable database in GCP from one account to another using DataFlow

我在 GCP 的 Bigtable 中存储了一个巨大的数据库。我正在使用 DataFlow 将大表数据从一个帐户迁移到另一个 GCP 帐户。 但是,当我创建一个从 bigtable 创建序列文件的作业时,它在目标存储桶上创建了 3000 个序列文件。 因此,不可能为每个 3000 个序列文件创建一个数据流 所以,有没有办法减少序列文件或在 GCP 的数据流作业模板中一次提供整个 3000 个序列文件的方法

我们有两个序列文件想依次上传数据(10行1列),但实际得到result uploaded(5 rows and 2 columns)

序列文件的命名应该有某种模式,例如gs://mybucket/somefolder/output-1, gs://mybucket/somefolder/output-2, gs://mybucket/somefolder/output-3

当 运行 Cloud Storage SequenceFile to Bigtable Dataflow templatesourcePattern 参数设置为该模式的前缀,如 gs://mybucket/somefolder/output-*gs://mybucket/somefolder/*