Amazon Athena 和压缩的 S3 文件

Amazon Athena and compressed S3 files

我有一个包含多个压缩 CSV 文件(使用日志)的 S3 存储桶。我想使用 Athena 查询此数据,但输出完全是乱码。

Athena 似乎试图在不先解压缩的情况下解析 zip 文件。是否可以强制 Hive 将我的文件识别为压缩数据?

支持 Athena 压缩,但 supported formats

  • 活泼 (.snappy)
  • Zlib (.bz2)
  • GZIP (.gz)

这些格式是通过文件名后缀来检测的。如果后缀不匹配,则 reader 不会解码内容。 我用 test.csv.gz 文件对其进行了测试,它立即起作用。所以尝试将压缩从 zip 更改为 gzip,它应该可以工作。