PyArrow / Dask to_parquet 分区所有空列
PyArrow / Dask to_parquet partition all null columns
在将 Dask 数据帧分区写入 parquet 时,我注意到 reading_parquet 在冲突的元数据/模式上失败。这是因为在某些分区中,列完全为空/np.nan,而在其他分区中,它们充满了值。
之前我已经转换了分区的数据类型:
df = df.astype(dtypes)
PyArrow 无法读取我的分区镶木地板文件,因为只有空值的列被重新分配了数据类型 'null'。我该如何解决这个问题?一些分区的列全部为空,而在其他分区中,它们不完全为空。
列的数据类型为整型、浮点型或字符串(对象)。
我建议在 Dask 或 Arrow 问题跟踪器上提出问题
在将 Dask 数据帧分区写入 parquet 时,我注意到 reading_parquet 在冲突的元数据/模式上失败。这是因为在某些分区中,列完全为空/np.nan,而在其他分区中,它们充满了值。
之前我已经转换了分区的数据类型:
df = df.astype(dtypes)
PyArrow 无法读取我的分区镶木地板文件,因为只有空值的列被重新分配了数据类型 'null'。我该如何解决这个问题?一些分区的列全部为空,而在其他分区中,它们不完全为空。
列的数据类型为整型、浮点型或字符串(对象)。
我建议在 Dask 或 Arrow 问题跟踪器上提出问题