使用 DataFlow 将 GCP 中的巨大 Bigtable 数据库从一个帐户迁移到另一个帐户

Migrating a huge Bigtable database in GCP from one account to another using DataFlow

我在 GCP 的 Bigtable 中存储了一个巨大的数据库。我正在使用 DataFlow 将大表数据从一个帐户迁移到另一个 GCP 帐户。但是，当我创建一个从 bigtable 创建序列文件的作业时，它在目标存储桶上创建了 3000 个序列文件。因此，不可能为每个 3000 个序列文件创建一个数据流所以，有没有办法减少序列文件或在 GCP 的数据流作业模板中一次提供整个 3000 个序列文件的方法

我们有两个序列文件想依次上传数据（10行1列），但实际得到result uploaded(5 rows and 2 columns)

序列文件的命名应该有某种模式，例如gs://mybucket/somefolder/output-1, gs://mybucket/somefolder/output-2, gs://mybucket/somefolder/output-3等

当运行 Cloud Storage SequenceFile to Bigtable Dataflow template 将 sourcePattern 参数设置为该模式的前缀，如 gs://mybucket/somefolder/output-* 或 gs://mybucket/somefolder/*

使用 DataFlow 将 GCP 中的巨大 Bigtable 数据库从一个帐户迁移到另一个帐户

Migrating a huge Bigtable database in GCP from one account to another using DataFlow

bigtable

sequencefile

gcloud

google-cloud-bigtable