将镶木地板保存为单个文件而不保存目录有什么问题吗

Is there any problems with saving parquet as a single file and no directory

我目前正在开发 Pyspark 应用程序以将每日增量提取输出为镶木地板。这些文件将成为一个单独的分区(自然分区将在数据 created/updated 的日期,这就是它们的构建方式)。

我打算然后获取输出的 parquet 文件夹和文件,重命名实际的 parquet 文件本身,将其移动到另一个位置并丢弃原始 *.parquet 目录,包括其 _SUCCESS*.crc 个文件。

虽然我已经测试了使用 Spark 和 Pandas 使用上述场景生成的读取文件,但我不确定这是否会导致我们将来可能引入的其他应用程序出现问题。

任何人都可以通过上述方法看到任何实际问题(除了 processing/coding 的努力)吗?

谢谢

如果您有 one parquet file 并将该文件重命名为 new filename 那么新文件将是valid parquet file.

如果您是 combining one or more parquet files 并将它们合并为 one 那么合并后的文件将 not be a valid parquet file.

  • 如果你是 combining more parquet files,那么最好使用 spark(使用重新分区)创建一个文件并写入 table.

    (or)

  • 您也可以使用parquet-tools-**.jarmerge multiple parquet files合并为一个parquet文件。