pandas to_parquet 到 s3 url 留下从 s3 url 解释的空目录的踪迹

Question

下面是我运行的代码：

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 5))
df.columns = ['a', 'b', 'c', 'd', 'e']
df['p'] = 2
df.to_parquet('s3://my_bucket/test01/boo.parquet', engine='fastparquet', compression='gzip', partition_cols=['p'])

parquet 保存到 s3。但是在我的工作目录中，我现在有一个名为“s3:”的目录，它具有从 s3 url.

解释的完整结构

Answer 1

好的，我知道这是 fastparquet 的怪癖。

仅当提供 partition_cols 且引擎='fastparquet' 时才会发生这种情况。如果没有提供 partition_cols，或者如果我使用默认引擎（即 engine='pyarrow'），则不会出现此空目录工件。它看起来像是 fastparquet 的怪癖。

pandas to_parquet 到 s3 url 留下从 s3 url 解释的空目录的踪迹

pandas to_parquet to s3 url leaves a trail of empty directories interpreted from the s3 url

amazon-s3

python-3.x

pandas

parquet