在 Apache Drill 中将 .json 数据集转换为没有任何分区的 .parquet

Question

我一直在处理数据集 business.json。我正在将所需的 table 提取到 .parquet 文件中：

0: jdbc:drill:zk=local> use dfs.tmp;
0: jdbc:drill:zk=local> ALTER SESSION SET `store.format` = 'parquet';

在运行我的命令之后：

+-----------+----------------------------+
| Fragment  | Number of records written  |
+-----------+----------------------------+
| 0_0       | 3221419                    |
+-----------+----------------------------+
1 row selected (276.773 seconds)

我正在获取分区的 .parquet 文件：0_0_0.parquet、0_0_1.parquet、0_0_2.parquet

如何获得单个 .parquet 文件：0_0_0.parquet 没有任何分区？

Answer 1

因为你有很多行钻取并行执行。考虑调整以下配置选项 [1]:

planner.slice_target
planner.width.max_per_node
planner.width.max_per_query

[1] https://drill.apache.org/docs/configuration-options-introduction/

在 Apache Drill 中将 .json 数据集转换为没有任何分区的 .parquet

Convert .json dataset to .parquet without any partitions in Apache Drill

sql

partition

parquet

apache-drill