在 R 和 Python 之间交叉读取镶木地板文件

Cross read parquet files between R and Python

我们生成了一个 parquet 文件,一个在 Dask (Python) 中,另一个在 R Drill 中(使用 Sergeant 数据包)。他们使用 parquet see my other parquet question

的不同实现

我们无法交叉读取文件(python 无法读取 R 文件,反之亦然)。
在 R 环境中读取 Python 镶木地板文件时,我们收到以下错误:system error: Illegalstatexception: UTF8 can only annotate binary filed .
在 Dask 中读取 R/Drill 镶木地板文件时,我们得到一个 FileNotFoundError: [Error 2] no such file or directory ...\_metadata(这是不言自明的)。
在 R 和 Python 之间交叉读取镶木地板文件的选项是什么?

如有任何见解,我们将不胜感激。

要使用 fastparquet/dask 读取 drill-like parquet 数据集,您需要传递文件名列表,例如

files = glob.glob('mydata/*/*.parquet')
df = dd.read_parquet(files)

另一个方向的错误可能是一个错误,或者(从您的其他问题中收集)可能表明您使用了固定长度的字符串,但 drill/R 不支持它们。