pandas to_parquet 到 s3 url 留下从 s3 url 解释的空目录的踪迹

pandas to_parquet to s3 url leaves a trail of empty directories interpreted from the s3 url

下面是我运行的代码:

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 5))
df.columns = ['a', 'b', 'c', 'd', 'e']
df['p'] = 2
df.to_parquet('s3://my_bucket/test01/boo.parquet', engine='fastparquet', compression='gzip', partition_cols=['p'])

parquet 保存到 s3。但是在我的工作目录中,我现在有一个名为“s3:”的目录,它具有从 s3 url.

解释的完整结构

好的,我知道这是 fastparquet 的怪癖。

仅当提供 partition_cols 且引擎='fastparquet' 时才会发生这种情况。 如果没有提供 partition_cols,或者如果我使用默认引擎(即 engine='pyarrow'),则不会出现此空目录工件。它看起来像是 fastparquet 的怪癖。