存储在 AWS S3 中的镶木地板文件是否可拆分?

Are parquet files splittable when stored in AWS S3?

我不是 100% 确定你在这里的意思,但通常(我认为),你在分区键上有镶木地板分区,并将列保存到行块中。当我在其中使用 AWS S3 时,它保存为:

|-Folder
|--Partition Keys
|---Columns
|----Rows_1-100.snappy.parquet
|----Rows_101-200.snappy.parquet

这处理了您提到的拆分效率。

是的,Parquet 文件是可拆分的。

S3 支持定位读取(范围请求),可用于仅读取输入文件(对象)的选定部分。