性能不佳 Arrow Parquet 多个文件
Poor performance Arrow Parquet multiple files
在 Rstudio 会议上观看了 mind-blowing 网络研讨会 here 后,我兴奋得足以将整个 SQL 服务器 table 转储到镶木地板文件中。结果是 2886 个文件(37 个月内有 78 个实体),总共有大约 700 万行。
做一个基本的 select 不到 15 秒就返回了所有行! (出乎意料的结果!!)在网络研讨会上,来自 Ursa Labs 的 Neal Richardson 展示了 Ny-Taxi 数据集,在 4 秒内包含 20 亿行。
我觉得是时候做一些更大胆的事情了,比如对一年的数据进行基本均值、sd、模式,但这每个月要花一分钟,所以我坐了 12.4 分钟等待 R 的回复。
问题是什么?我写的不好R-query?或者只是文件或粒度太多(十进制值?)??
有什么想法吗??
PS:我不想在 apache-arrow 版块中放置 Jira-case,因为我看到 google 搜索不会从那里检索答案。
我的猜测(没有实际查看数据或分析查询)有两点:
- 你说得对,小数类型在转换为 R 类型时需要做一些工作,因为 R 没有小数类型,因此这比仅读取 int32 或 float64 类型要慢。
- 您仍在向 R 会话读取约 3.5 亿行数据,这需要一些时间。在箭头包小插图的示例查询中,过滤掉了更多数据(并且过滤非常快)。
在 Rstudio 会议上观看了 mind-blowing 网络研讨会 here 后,我兴奋得足以将整个 SQL 服务器 table 转储到镶木地板文件中。结果是 2886 个文件(37 个月内有 78 个实体),总共有大约 700 万行。
做一个基本的 select 不到 15 秒就返回了所有行! (出乎意料的结果!!)在网络研讨会上,来自 Ursa Labs 的 Neal Richardson 展示了 Ny-Taxi 数据集,在 4 秒内包含 20 亿行。
我觉得是时候做一些更大胆的事情了,比如对一年的数据进行基本均值、sd、模式,但这每个月要花一分钟,所以我坐了 12.4 分钟等待 R 的回复。
问题是什么?我写的不好R-query?或者只是文件或粒度太多(十进制值?)??
有什么想法吗??
PS:我不想在 apache-arrow 版块中放置 Jira-case,因为我看到 google 搜索不会从那里检索答案。
我的猜测(没有实际查看数据或分析查询)有两点:
- 你说得对,小数类型在转换为 R 类型时需要做一些工作,因为 R 没有小数类型,因此这比仅读取 int32 或 float64 类型要慢。
- 您仍在向 R 会话读取约 3.5 亿行数据,这需要一些时间。在箭头包小插图的示例查询中,过滤掉了更多数据(并且过滤非常快)。