Exporting/importing bigtable 的特定列族

Exporting/importing specific column families of bigtable

我的团队正在考虑 exporting/importing 大表数据,但只是列族的一个子集(不是全部)用于技术问题。

这些文档似乎表明 export/import 仅适用于整个 bigtable。

https://cloud.google.com/bigtable/docs/exporting-sequence-files https://cloud.google.com/bigtable/docs/importing-sequence-files

我们希望避免导出整个 bt,因为它的大小(我们只需要特定的列族是 backed-up/restored)。

也许有一个我们不知道的简单解决方案,所以我想在这里问一下。

我们想到的另一种方法是使用Dataflow扫描特定的列族,将数据转储到GCS(通过保留快照的方式),并在需要时恢复数据。但如果我们不需要使用Dataflow,那将是一个更好的解决方案。

非常感谢任何帮助和建议!

您目前可以通过命令行 -Dhbase.mapreduce.scan.column.family=<your_family> 设置单个列族。

我们目前正在努力改进我们的导入/导出流程。如果您愿意,可以在我们的 github issues 中请求增强功能,我们应该能够很快完成。下面的应该是比较容易实现的,但是目前没有实现:

-Dhbase.mapreduce.scan.column.families=<your families separated by commas>