将 pandas DataFrame 保存到日期类型镶木地板的最佳方法

Best way to save pandas DataFrame to parquet with date type

我正在尝试将具有日期类型列的 DataFrame 保存为镶木地板格式,以便稍后在 Athena 中使用。据我了解 parquet 具有本机 DATE 类型,我真正可以使用的唯一类型是 datetime64[ns] 和 pyarrow 引擎(这里讨论的是相同的问题 https://github.com/pandas-dev/pandas/issues/20089)。问题是我想在 Athena 模式中使用日期类型而不是日期时间。有什么建议么?

如评论中所述,我相信 Apache Arrow 0.15.1 现在支持 Pandas 和 Parquet 之间的往返日期。