如何将 HBase 表以 Parquet 格式移动到 HDFS?
How to move HBase tables to HDFS in Parquet format?
我必须构建一个工具来处理我们的数据存储,从 HBase(HFiles) 到 Parquet 格式的 HDFS。
请提出将数据从 HBase 表移动到 Parquet 表的最佳方法之一。
我们必须将 4 亿条记录从 HBase 迁移到 Parquet。如何实现这一点以及移动数据的最快方式是什么?
提前致谢。
此致,
帕迪普夏尔马。
请查看此项目tmalaska/HBase-ToHDFS
它读取 HBase table 并将输出写为 Text、Seq、Avro 或 Parquet
实木复合地板的用法示例:
hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema
我最近开源了一个 HBase 补丁,它解决了您所描述的问题。
看看这里:https://github.com/ibm-research-ireland/hbaquet
我必须构建一个工具来处理我们的数据存储,从 HBase(HFiles) 到 Parquet 格式的 HDFS。
请提出将数据从 HBase 表移动到 Parquet 表的最佳方法之一。
我们必须将 4 亿条记录从 HBase 迁移到 Parquet。如何实现这一点以及移动数据的最快方式是什么?
提前致谢。
此致,
帕迪普夏尔马。
请查看此项目tmalaska/HBase-ToHDFS 它读取 HBase table 并将输出写为 Text、Seq、Avro 或 Parquet
实木复合地板的用法示例:
hadoop jar HBaseToHDFS.jar ExportHBaseTableToParquet exportTest c export.parquet false avro.schema
我最近开源了一个 HBase 补丁,它解决了您所描述的问题。 看看这里:https://github.com/ibm-research-ireland/hbaquet