R/arrow: 读取 parquet 数据文件时遇到问题

R/arrow: trouble reading parquet data files

我正在尝试读入一个相对较大的 parquet 文件(~4M 行,~100 列)。 有人可以帮我解释以下错误消息吗?

在将 reading/writing csv 格式的文件转换为 parquet 文件后,我没有遇到任何问题,我尝试使用 arrow::read_parquet 读取它,但收效甚微。当我尝试读入它时,出现以下错误。

library(tidyverse)
library(arrow)
par <- file.path(dir, 'path', 'to', 'my', 'file.parquet') %>% 
           read_parquet
glimpse(par)

# Error in setalloccol(newx) : 
#  Internal error: length of names (0) is not length of dt (109)

然后我得到

names(par)
#NULL

说到这里,我可以观察到csv版和parquet版的行数和列数一样

我收到的另一个常见错误是:

Error in `[[<-.data.frame`(`*tmp*`, "..row.names..", value = 1:3279887) : 
   replacement has 3279887 rows, data has 0 

此问题是 arrow 版本特有的,现已修复。之前使用的是 1.0.0 版,但无法复制 4.0.1

上的错误