在 s3 中的多个镶木地板文件之上创建 Hive table

Creating Hive table on top of multiple parquet files in s3

我们在 s3(parquet 文件)中有以下格式的数据集,数据根据行号分为多个 parquet 文件。

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

我们有超过 2000 个这样的文件,每个文件都有数百万条记录。所有这些文件都具有相同的列数和结构。如果我们需要在配置单元中对数据集进行分区,其中一列中有时间戳。我们如何指向数据集并在其之上创建一个外部配置单元 table 用于我们的分析,或者可以使用 spark 对其进行分析?

谢谢。

您可以简单地指向包含文件的路径:

CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';