是否可以合并 hdfs 上的两个镶木地板目录?

Is it possible to merge two parquet directory on hdfs?

我的 HDFS 上有两个具有相同架构的镶木地板目录。我想将这两个目录合并到一个 parquet 目录中,以便能够从中创建一个外部配置单元 table。

我用谷歌搜索了我的问题,但几乎所有结果都是关于将小的 parquet 文件合并到更大的 parquet 文件。

只要parquet文件有相同的schema,你就可以简单的把它们放在同一个目录下。 Hive 将处理它在外部 table 的目录中找到的所有文件(除了一些具有特定名称的特殊文件),因此您只需将数据放在那里,Hive 就会找到它。 (在较旧的 Hive 版本中,对于非外部 tables 也是如此。但是,在较新的 Hive 版本中,它仅适用于外部 tables 因此您不应该篡改 so 的内容-称为托管 tables。)