将 ORC 文件转换为 Parquet 文件

Convert ORC file to Parquet file

是否有任何已知的 libraries/approaches 可以将 ORC 文件转换为 Parquet 文件?否则我正在考虑使用 Spark 将 ORC 导入数据框然后输出到镶木地板文件

一种方法是:

步骤 1) 首先,您需要使用 "Stored As Text" 从 ORC table 创建一个 table 步骤 2) 其次,您可以从先前的输出创建 A table 作为 "Stored As Parquet" 步骤 3) 之后你可以放弃中间 table.

您提到使用 Spark 读取 ORC 文件、创建 DataFrame,然后将这些 DF 存储为 Parquet 文件。这是一种非常有效且非常有效的方法!

另外,根据您的偏好和用例,您甚至可以使用 Hive 或 Pig[也许您可以 throw-in Tez 以获得更好的性能] 或 Java MapReduce 甚至 NiFi/StreamSets [取决于你的分布]。这是一个非常简单的实现,你可以做任何最适合你的事情[或者你最喜欢的事情:)]