pandas to_parquet 到 s3 url 留下从 s3 url 解释的空目录的踪迹
pandas to_parquet to s3 url leaves a trail of empty directories interpreted from the s3 url
下面是我运行的代码:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 5))
df.columns = ['a', 'b', 'c', 'd', 'e']
df['p'] = 2
df.to_parquet('s3://my_bucket/test01/boo.parquet', engine='fastparquet', compression='gzip', partition_cols=['p'])
parquet 保存到 s3。但是在我的工作目录中,我现在有一个名为“s3:”的目录,它具有从 s3 url.
解释的完整结构
好的,我知道这是 fastparquet 的怪癖。
仅当提供 partition_cols 且引擎='fastparquet' 时才会发生这种情况。
如果没有提供 partition_cols,或者如果我使用默认引擎(即 engine='pyarrow'),则不会出现此空目录工件。它看起来像是 fastparquet 的怪癖。
下面是我运行的代码:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 5))
df.columns = ['a', 'b', 'c', 'd', 'e']
df['p'] = 2
df.to_parquet('s3://my_bucket/test01/boo.parquet', engine='fastparquet', compression='gzip', partition_cols=['p'])
parquet 保存到 s3。但是在我的工作目录中,我现在有一个名为“s3:”的目录,它具有从 s3 url.
解释的完整结构好的,我知道这是 fastparquet 的怪癖。
仅当提供 partition_cols 且引擎='fastparquet' 时才会发生这种情况。 如果没有提供 partition_cols,或者如果我使用默认引擎(即 engine='pyarrow'),则不会出现此空目录工件。它看起来像是 fastparquet 的怪癖。