如何将 HBase 表以 Parquet 格式移动到 HDFS?

How to move HBase tables to HDFS in Parquet format?

我必须构建一个工具来处理我们的数据存储,从 HBase(HFiles) 到 Parquet 格式的 HDFS。

请提出将数据从 HBase 表移动到 Parquet 表的最佳方法之一。

我们必须将 4 亿条记录从 HBase 迁移到 Parquet。如何实现这一点以及移动数据的最快方式是什么?

提前致谢。

此致,

帕迪普夏尔马。

请查看此项目tmalaska/HBase-ToHDFS 它读取 HBase table 并将输出写为 Text、Seq、Avro 或 Parquet

实木复合地板的用法示例:

Exports the data to Parquet

hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema

我最近开源了一个 HBase 补丁,它解决了您所描述的问题。 看看这里:https://github.com/ibm-research-ireland/hbaquet