在 Apache Drill 中将 .json 数据集转换为没有任何分区的 .parquet
Convert .json dataset to .parquet without any partitions in Apache Drill
我一直在处理数据集 business.json。我正在将所需的 table 提取到 .parquet 文件中:
0: jdbc:drill:zk=local> use dfs.tmp;
0: jdbc:drill:zk=local> ALTER SESSION SET `store.format` = 'parquet';
在 运行 我的命令之后:
+-----------+----------------------------+
| Fragment | Number of records written |
+-----------+----------------------------+
| 0_0 | 3221419 |
+-----------+----------------------------+
1 row selected (276.773 seconds)
我正在获取分区的 .parquet 文件:0_0_0.parquet、0_0_1.parquet、0_0_2.parquet
如何获得单个 .parquet 文件:0_0_0.parquet 没有任何分区?
因为你有很多行钻取并行执行。考虑调整以下配置选项 [1]:
planner.slice_target
planner.width.max_per_node
planner.width.max_per_query
[1] https://drill.apache.org/docs/configuration-options-introduction/
我一直在处理数据集 business.json。我正在将所需的 table 提取到 .parquet 文件中:
0: jdbc:drill:zk=local> use dfs.tmp;
0: jdbc:drill:zk=local> ALTER SESSION SET `store.format` = 'parquet';
在 运行 我的命令之后:
+-----------+----------------------------+
| Fragment | Number of records written |
+-----------+----------------------------+
| 0_0 | 3221419 |
+-----------+----------------------------+
1 row selected (276.773 seconds)
我正在获取分区的 .parquet 文件:0_0_0.parquet、0_0_1.parquet、0_0_2.parquet
如何获得单个 .parquet 文件:0_0_0.parquet 没有任何分区?
因为你有很多行钻取并行执行。考虑调整以下配置选项 [1]:
planner.slice_target
planner.width.max_per_node
planner.width.max_per_query
[1] https://drill.apache.org/docs/configuration-options-introduction/