在没有 Spark 的 Scala 中创建 Parquet 文件

Create Parquet file in Scala without Spark

我正在尝试使用 Scala(无 Spark)将流式 JSON 消息直接写入 Parquet。我在网上只看到 post 和 post,但是我看到 ParquetWriter API 已被弃用,并且该解决方案实际上并未提供示例跟随。我也阅读了其他一些 post,但没有找到任何描述性的解释。

我知道我必须使用 ParquetFileWriter API 但是缺少文档使我很难使用它。有人可以提供它的示例以及所有构造函数参数以及如何创建这些参数,尤其是模式吗?

您可能想尝试使用 Eel,一个在 Hadoop 生态系统中操作数据的工具包。

我建议阅读 README 以更好地了解该库,但为了让您了解该库的工作原理,您尝试做的事情看起来有点像以下内容:

val source = JsonSource(() => new FileInputStream("input.json"))
val sink = ParquetSink(new Path("output.parquet"))
source.toDataStream().to(sink)