在 mapreduce 之外创建 ORCFile
Create ORCFile outside mapreduce
我正在使用 hadoop java api 在 mapreduce 作业之外创建一个 ORCFile。 ORCFiles 的 Writer class 有一个方法 addRow(Object row)。我的问题是,如果我希望能够使用配置单元查询此文件,我应该为 "row" 参数使用什么类型?
https://hive.apache.org/javadocs/r0.12.0/api/org/apache/hadoop/hive/ql/io/orc/Writer.html
在java中创建ORC文件主要是编写大量样板代码的问题。如果您查看 apache-orc 测试文件,您可以很好地了解如何执行此操作。我刚刚发布了一个开源库,它使用运行时代码生成处理所有样板文件,并使将 java 对象序列化为 ORC 变得微不足道。该库可通过 github 获得。该库名为 eclectic-orc。
我正在使用 hadoop java api 在 mapreduce 作业之外创建一个 ORCFile。 ORCFiles 的 Writer class 有一个方法 addRow(Object row)。我的问题是,如果我希望能够使用配置单元查询此文件,我应该为 "row" 参数使用什么类型?
https://hive.apache.org/javadocs/r0.12.0/api/org/apache/hadoop/hive/ql/io/orc/Writer.html
在java中创建ORC文件主要是编写大量样板代码的问题。如果您查看 apache-orc 测试文件,您可以很好地了解如何执行此操作。我刚刚发布了一个开源库,它使用运行时代码生成处理所有样板文件,并使将 java 对象序列化为 ORC 变得微不足道。该库可通过 github 获得。该库名为 eclectic-orc。