查找使用 Apache Drill 创建的 Parquet 文件
Finding Parquet File Created with Apache Drill
阅读本文后post:
http://tgrall.github.io/blog/2015/08/17/convert-csv-file-to-apache-parquet-dot-dot-dot-with-drill/
我正在尝试将 CSV 文件转换为 Parquet 文件。我可以成功查询我的 CSV:
select * from dfs.`/Users/[username]/Desktop/drill_example.csv` limit 5;
输出为:
+-------------------+
| columns |
+-------------------+
| ["1","UT","M\r"] |
| ["2","CA","M\r"] |
| ["3","CA","F\r"] |
| ["4","NJ","M\r"] |
| ["5","FL","F\r"] |
+-------------------+
然后我通过以下方式将格式更改为 Parquet:
alter session set `store.format`='parquet';
输出为:
+-------+------------------------+
| ok | summary |
+-------+------------------------+
| true | store.format updated. |
+-------+------------------------+
然后我使用以下代码创建新的 table/file:
CREATE TABLE dfs.tmp.`/Users/[username]/Desktop/drill_example_parquet` AS
select * from dfs.`/Users/[username]/Desktop/drill_example.csv`;
具有以下输出:
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
+-----------+----------------------------+
| Fragment | Number of records written |
+-----------+----------------------------+
| 0_0 | 10000 |
+-----------+----------------------------+
1 row selected (1.292 seconds)
创建 table/file 是因为我可以使用以下代码查询它:
SELECT *
FROM dfs.tmp.`/Users/[username]/Desktop/drill_example_parquet`;
但是我在我的电脑上找不到这个文件。我如何获得 Parquet file(不是 table)?换句话说,我桌面上的 CSV 文件的 Parquet 版本。我必须以某种方式导出它吗?另外,完成后如何删除这些 table?
提前致谢。
通过虚拟主机 (xx.xx.xx.xx:8047/storage/dfs
) 检查您的 dfs
插件
默认temp
目录:
"tmp": {
"location": "/tmp",
"writable": true,
"defaultInputFormat": null
}
您的文件将位于(假设您没有更改 tmp
目录):
/tmp/Users/[username]/Desktop/drill_example_parquet
阅读本文后post: http://tgrall.github.io/blog/2015/08/17/convert-csv-file-to-apache-parquet-dot-dot-dot-with-drill/
我正在尝试将 CSV 文件转换为 Parquet 文件。我可以成功查询我的 CSV:
select * from dfs.`/Users/[username]/Desktop/drill_example.csv` limit 5;
输出为:
+-------------------+
| columns |
+-------------------+
| ["1","UT","M\r"] |
| ["2","CA","M\r"] |
| ["3","CA","F\r"] |
| ["4","NJ","M\r"] |
| ["5","FL","F\r"] |
+-------------------+
然后我通过以下方式将格式更改为 Parquet:
alter session set `store.format`='parquet';
输出为:
+-------+------------------------+
| ok | summary |
+-------+------------------------+
| true | store.format updated. |
+-------+------------------------+
然后我使用以下代码创建新的 table/file:
CREATE TABLE dfs.tmp.`/Users/[username]/Desktop/drill_example_parquet` AS
select * from dfs.`/Users/[username]/Desktop/drill_example.csv`;
具有以下输出:
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
+-----------+----------------------------+
| Fragment | Number of records written |
+-----------+----------------------------+
| 0_0 | 10000 |
+-----------+----------------------------+
1 row selected (1.292 seconds)
创建 table/file 是因为我可以使用以下代码查询它:
SELECT *
FROM dfs.tmp.`/Users/[username]/Desktop/drill_example_parquet`;
但是我在我的电脑上找不到这个文件。我如何获得 Parquet file(不是 table)?换句话说,我桌面上的 CSV 文件的 Parquet 版本。我必须以某种方式导出它吗?另外,完成后如何删除这些 table?
提前致谢。
通过虚拟主机 (xx.xx.xx.xx:8047/storage/dfs
) 检查您的 dfs
插件
默认temp
目录:
"tmp": {
"location": "/tmp",
"writable": true,
"defaultInputFormat": null
}
您的文件将位于(假设您没有更改 tmp
目录):
/tmp/Users/[username]/Desktop/drill_example_parquet