提高 hive managed 中插入覆盖的性能 table

Increase the performance of the insert overwrite in hive managed table

我是 Hive 的新手,我想知道 table 属性列表以提高 hive 托管 table 中插入覆盖的性能。 有人可以帮忙吗?

一些建议:

  1. 关闭统计信息自动收集:

    set hive.stats.autogather=false;

  2. 如果可能提前删除分区文件夹或table文件夹,或使用PURGE选项:

  3. 如果您使用的是 S3 且 table 是 ORC,请禁用块填充:

    ALTER TABLE your_table SET TBLPROPERTIES ("orc.block.padding"="false", "orc.block.padding.tolerance"="1.0");

  4. 使用矢量化 ConfigurationProperties-Vectorization 和 Tez:

    set hive.execution.engine=tez;

  5. 优化查询。