Exporting/importing bigtable 的特定列族
Exporting/importing specific column families of bigtable
我的团队正在考虑 exporting/importing 大表数据,但只是列族的一个子集(不是全部)用于技术问题。
这些文档似乎表明 export/import 仅适用于整个 bigtable。
https://cloud.google.com/bigtable/docs/exporting-sequence-files
https://cloud.google.com/bigtable/docs/importing-sequence-files
我们希望避免导出整个 bt,因为它的大小(我们只需要特定的列族是 backed-up/restored)。
也许有一个我们不知道的简单解决方案,所以我想在这里问一下。
我们想到的另一种方法是使用Dataflow扫描特定的列族,将数据转储到GCS(通过保留快照的方式),并在需要时恢复数据。但如果我们不需要使用Dataflow,那将是一个更好的解决方案。
非常感谢任何帮助和建议!
您目前可以通过命令行 -Dhbase.mapreduce.scan.column.family=<your_family>
设置单个列族。
我们目前正在努力改进我们的导入/导出流程。如果您愿意,可以在我们的 github issues 中请求增强功能,我们应该能够很快完成。下面的应该是比较容易实现的,但是目前没有实现:
-Dhbase.mapreduce.scan.column.families=<your families separated by commas>
我的团队正在考虑 exporting/importing 大表数据,但只是列族的一个子集(不是全部)用于技术问题。
这些文档似乎表明 export/import 仅适用于整个 bigtable。
https://cloud.google.com/bigtable/docs/exporting-sequence-files https://cloud.google.com/bigtable/docs/importing-sequence-files
我们希望避免导出整个 bt,因为它的大小(我们只需要特定的列族是 backed-up/restored)。
也许有一个我们不知道的简单解决方案,所以我想在这里问一下。
我们想到的另一种方法是使用Dataflow扫描特定的列族,将数据转储到GCS(通过保留快照的方式),并在需要时恢复数据。但如果我们不需要使用Dataflow,那将是一个更好的解决方案。
非常感谢任何帮助和建议!
您目前可以通过命令行 -Dhbase.mapreduce.scan.column.family=<your_family>
设置单个列族。
我们目前正在努力改进我们的导入/导出流程。如果您愿意,可以在我们的 github issues 中请求增强功能,我们应该能够很快完成。下面的应该是比较容易实现的,但是目前没有实现:
-Dhbase.mapreduce.scan.column.families=<your families separated by commas>