Exporting/importing bigtable 的特定列族

Question

我的团队正在考虑 exporting/importing 大表数据，但只是列族的一个子集（不是全部）用于技术问题。

这些文档似乎表明 export/import 仅适用于整个 bigtable。

我们希望避免导出整个 bt，因为它的大小（我们只需要特定的列族是 backed-up/restored）。

也许有一个我们不知道的简单解决方案，所以我想在这里问一下。

我们想到的另一种方法是使用Dataflow扫描特定的列族，将数据转储到GCS（通过保留快照的方式），并在需要时恢复数据。但如果我们不需要使用Dataflow，那将是一个更好的解决方案。

非常感谢任何帮助和建议！

Answer 1

您目前可以通过命令行 -Dhbase.mapreduce.scan.column.family=<your_family> 设置单个列族。

我们目前正在努力改进我们的导入/导出流程。如果您愿意，可以在我们的 github issues 中请求增强功能，我们应该能够很快完成。下面的应该是比较容易实现的，但是目前没有实现：

-Dhbase.mapreduce.scan.column.families=<your families separated by commas>

Exporting/importing specific column families of bigtable