在没有 Spark 的情况下在 Scala 中使用 parquet-mr

Using parquet-mr in Scala without Spark

我正在尝试在不使用 Spark 的情况下在 Scala 中读取 .parquet 文件。

我发现 , but so far have been unable to find how to use the parquet-mr library 实际读取文件(包括获取架构)。有 RecordReader.java 和 RecordReaderImplementation.java(扩展 RecordReader)之类的东西,但我很难理解如何在我的 Scala 代码中使用它们。我是 Scala 和 Parquet 格式的新手,但想在不使用 Spark 的情况下完成此操作。

我在这里错过了什么?

在没有找到任何其他东西之后,我最终自己构建了一些东西。以防将来其他人遇到这个问题:https://github.com/jmd1011/parquet-readers