使用 Snappy 压缩的 Parquet 格式的 Redshift COPY 命令

Redshift COPY command for Parquet format with Snappy compression

我在 HDFS 中有数据集,这些数据集采用 parquet 格式,使用 snappy 作为压缩编解码器。就我的研究而言,目前 Redshift 只接受纯文本、json、带有 gzip、lzo 压缩编解码器的 avro 格式。

或者,我正在将 parquet 格式转换为纯文本,并使用 Pig 脚本将 snappy 编解码器更改为 gzip。

目前有没有办法将数据从 parquet 文件直接加载到 Redshift?

不,目前无法将Parquet 格式数据直接加载到Redshift 中。

编辑:从 2017 年 4 月 19 日开始,您可以使用 Redshift Spectrum 直接查询 S3 上的 Parquet 数据。因此,您现在可以使用 INSERT INTO x SELECT * FROM parquet_data http://docs.aws.amazon.com/redshift/latest/dg/c-using-spectrum.html

从 Parquet "load"

编辑 2:从 2018 年 5 月 17 日开始(对于版本 1.0.2294 或更高版本的集群),您可以直接将 Parquet 和 ORC 文件加载到 Redshift 中。 https://docs.aws.amazon.com/redshift/latest/dg/copy-usage_notes-copy-from-columnar.html