谁能解释一下 c000.snappy.parquet 或 c000.snappy.orc 中的 c000 是什么意思?

Could anyone please explain what is c000 means in c000.snappy.parquet or c000.snappy.orc??

我已经搜索了每个文档,但仍然没有找到为什么有前缀以及以下文件命名约定中的 c000 是什么:

文件:/Users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319- c000.snappy.parquet

您应该使用 "Talk is cheap, show me the code." 方法。一切都没有记录,一种方法就是代码。

考虑 part-1-2_3-4.parquet :

  1. Split/Partition个数.

  2. 随机 UUID 以防止不同(追加)写入作业之间发生冲突。

  3. 唯一的Job/Task ID(有时不会包含)。
  4. "c"代表计数。这是文件计数器,表示过去为此特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从 0 开始。

我是根据this code and this code找到的。