关于如何通过 HFile 将协议缓冲区文件批量加载到 HBase 的任何想法？

Any ideas on how to bulk loading protocol buffer file via HFile onto HBase?

这是我正在尝试做的事情：

将数据从 Hive 加载到由协议缓冲区序列化的 HBase。

我尝试了多种方法：

直接创建到 HBase 的连接并执行 Puts 到 HBase。这可行，但显然效率不高。
我从 S3 中的 Hive 导入了 json table 并将它们存储为文本文件（由制表符分隔），然后使用 importTsv 实用程序生成 HFile 并批量加载它们进入 HBase，这也有效。

但现在我想以更有效的方式实现这一点：

从 S3 中的 Hive table 中导出我的数据，将它们序列化为协议缓冲区对象，然后生成 HFile 并将 HFile 直接挂载到 HBase 上。

我正在使用 Spark 作业从 Hive 读取数据，这可以给我 JavaRDD，然后我可以构建我的协议缓冲区对象，但我不知道如何从那里继续。

所以我的问题是：如何从协议缓冲区对象生成 HFile。我们不想将它们保存为本地磁盘或 HDFS 上的文本文件，我如何直接从那里生成 HFile？

非常感谢！

感谢@Samson 指出那个很棒的 post。

经过反复试验，我开始工作了。只是为了减轻别人的痛苦，这是有效的 example.

它的作用：它使用Spark从S3读取数据，重新分区到相应的区域，生成HFiles。