我可以将数据从一个配置单元分区移动到同一配置单元的另一个分区 table

Can i move data from one hive partition to another partition of the same table

我的分区基于year/month/date。将 SimpleDateFormat 用于 week year 创建了一个错误的分区。在日期格式中使用 YYYY 将日期 2017-31-12 的数据移至 2018-31-12。

   SimpleDateFormat sdf = new SimpleDateFormat("YYYY-MM-dd");

所以我想要的是将我的数据从分区 2018/12/31 移动到相同 table 的 2017/12/31。我没有找到任何相关文档来做同样的事情。

有一个与此相关的 JIRA https://issues.apache.org/jira/browse/SPARK-19187。将您的 spark 版本升级到 2.0.1 应该可以解决问题

据我了解,您想将数据从 2018-12-31 分区移动到 2017/12/31。下面是我对如何做到这一点的解释。

#From Hive/Beeline
ALTER TABLE TableName PARTITION (PartitionCol=2018-12-31) RENAME TO PARTITION (PartitionCol=2017-12-31);

FromSparkCode,您基本上必须从中启动 hiveContext 和 运行 相同的 HQL。您可以参考我的一个回答here关于如何启动配置单元上下文。

#If you want to do on HDFS level, below is one of the approaches
#FromHive/beeline run the below HQL
ALTER TABLE TableName ADD IF NOT EXISTS PARTITION (PartitionCol=2017-12-31);

#Now from HDFS Just move the data in 2018 to 2017 partition
hdfs dfs -mv /your/table_hdfs/path/schema.db/tableName/PartitionCol=2018-12-31/* /your/table_hdfs/path/schema.db/tableName/PartitionCol=2017-12-31/

#removing the 2018 partition if you require
hdfs dfs -rm -r /your/table_hdfs/path/schema.db/tableName/PartitionCol=2018-12-31

#You can also drop from beeline/hive
alter table tableName drop if exists partition (PartitionCol=2018-12-31);

#At the end repair the table
msck repair table tableName

Why do i have to repair the table ??