使用 tar.gz 文件作为 Amazon Athena 的来源

Using tar.gz file as a source for Amazon Athena

如果我将 Amazon S3 上的 *.tsv 文件定义为 Athena table 的源并使用 OpenCSVSerde 或 LazySimpleSerDe 作为反序列化器,它可以正常工作。但是,如果我定义包含 *.tsv 文件的 *.tar.gz 文件,我会在 table 中看到几个奇怪的行(例如,包含 tsv 文件名和几个空行的行)。在 Athena 中使用 tar.gz 文件的正确方法是什么?

问题是 tar,它添加了额外的行。 Athena 只能打开 *.gz 文件,不能打开 tar。所以在这种情况下,我必须使用 *.gz 而不是 *.tar.gz.