性能不佳 Arrow Parquet 多个文件

Poor performance Arrow Parquet multiple files

在 Rstudio 会议上观看了 mind-blowing 网络研讨会 here 后，我兴奋得足以将整个 SQL 服务器 table 转储到镶木地板文件中。结果是 2886 个文件（37 个月内有 78 个实体），总共有大约 700 万行。

做一个基本的 select 不到 15 秒就返回了所有行！（出乎意料的结果！！）在网络研讨会上，来自 Ursa Labs 的 Neal Richardson 展示了 Ny-Taxi 数据集，在 4 秒内包含 20 亿行。

我觉得是时候做一些更大胆的事情了，比如对一年的数据进行基本均值、sd、模式，但这每个月要花一分钟，所以我坐了 12.4 分钟等待 R 的回复。

问题是什么？我写的不好R-query？或者只是文件或粒度太多（十进制值？）??

有什么想法吗？？

PS：我不想在 apache-arrow 版块中放置 Jira-case，因为我看到 google 搜索不会从那里检索答案。

我的猜测（没有实际查看数据或分析查询）有两点：