在 R 和 Python 之间交叉读取镶木地板文件
Cross read parquet files between R and Python
我们生成了一个 parquet 文件,一个在 Dask
(Python) 中,另一个在 R Drill
中(使用 Sergeant
数据包)。他们使用 parquet
see my other parquet question
的不同实现
我们无法交叉读取文件(python 无法读取 R 文件,反之亦然)。
在 R 环境中读取 Python 镶木地板文件时,我们收到以下错误:system error: Illegalstatexception: UTF8 can only annotate binary filed
.
在 Dask 中读取 R/Drill 镶木地板文件时,我们得到一个 FileNotFoundError: [Error 2] no such file or directory ...\_metadata
(这是不言自明的)。
在 R 和 Python 之间交叉读取镶木地板文件的选项是什么?
如有任何见解,我们将不胜感激。
要使用 fastparquet/dask 读取 drill-like parquet 数据集,您需要传递文件名列表,例如
files = glob.glob('mydata/*/*.parquet')
df = dd.read_parquet(files)
另一个方向的错误可能是一个错误,或者(从您的其他问题中收集)可能表明您使用了固定长度的字符串,但 drill/R 不支持它们。
我们生成了一个 parquet 文件,一个在 Dask
(Python) 中,另一个在 R Drill
中(使用 Sergeant
数据包)。他们使用 parquet
see my other parquet question
我们无法交叉读取文件(python 无法读取 R 文件,反之亦然)。
在 R 环境中读取 Python 镶木地板文件时,我们收到以下错误:system error: Illegalstatexception: UTF8 can only annotate binary filed
.
在 Dask 中读取 R/Drill 镶木地板文件时,我们得到一个 FileNotFoundError: [Error 2] no such file or directory ...\_metadata
(这是不言自明的)。
在 R 和 Python 之间交叉读取镶木地板文件的选项是什么?
如有任何见解,我们将不胜感激。
要使用 fastparquet/dask 读取 drill-like parquet 数据集,您需要传递文件名列表,例如
files = glob.glob('mydata/*/*.parquet')
df = dd.read_parquet(files)
另一个方向的错误可能是一个错误,或者(从您的其他问题中收集)可能表明您使用了固定长度的字符串,但 drill/R 不支持它们。