通过 Impala 的 Parquet 压缩类型
Parquet compression type via Impala
我们定义了很多 impala table,假设我们使用的是 Snappy 压缩。 (镶木地板文件)
然而,没有人真正知道我们在现有 table 上实际使用的是什么压缩类型。
impala 文档似乎没有指定如何从现有 table 中获取压缩类型。
有没有办法通过impala找到使用的压缩类型?
截至目前,Impala 中没有任何命令可以告诉您 table 中使用的压缩类型存储为 parquet,但有一个解决方法。您可以做的是查看 table 中的一个 parquet 文件,然后使用 parquet-tools meta 命令查看正在使用的压缩。
-- step1) run hdfs dfs -ls to determine the location and name for a parquet file
hdfs dfs -ls /yourTableLocationPath
-- step2) parquet-tools really only works locally right now so you will need to copy the file to a local directory
hdfs dfs -get /yourTableLocationPath/yourFileName /yourLocalPath
-- step3) run parquet-tools meta command
parquet-tools meta /yourLocalPath/yourFileName
parquet-tools meta 命令的输出将显示行组输出下使用的压缩类型。
我们定义了很多 impala table,假设我们使用的是 Snappy 压缩。 (镶木地板文件)
然而,没有人真正知道我们在现有 table 上实际使用的是什么压缩类型。
impala 文档似乎没有指定如何从现有 table 中获取压缩类型。
有没有办法通过impala找到使用的压缩类型?
截至目前,Impala 中没有任何命令可以告诉您 table 中使用的压缩类型存储为 parquet,但有一个解决方法。您可以做的是查看 table 中的一个 parquet 文件,然后使用 parquet-tools meta 命令查看正在使用的压缩。
-- step1) run hdfs dfs -ls to determine the location and name for a parquet file
hdfs dfs -ls /yourTableLocationPath
-- step2) parquet-tools really only works locally right now so you will need to copy the file to a local directory
hdfs dfs -get /yourTableLocationPath/yourFileName /yourLocalPath
-- step3) run parquet-tools meta command
parquet-tools meta /yourLocalPath/yourFileName
parquet-tools meta 命令的输出将显示行组输出下使用的压缩类型。