直接或通过 AWS Glue 数据目录将 Redshift Spectrum/AWS EMR 与 Hudi 连接

Connect Redshift Spectrum/ AWS EMR with Hudi directly or via AWS Glue Data Catalog

我正在尝试了解如何将 Redshift Spectrum 与 Hudi 数据正确连接。

看起来我可以直接为 Apache Hudi 中管理的数据创建 Redshift 外部 table，就像以下文档中描述的那样 https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html The other way is to integrate Hudi with AWS Glue Data Catalog like it is mentioned here https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-how-it-works.html，然后使用 Redshift Spectrum 访问 Hudi tables通过 AWS Glue 数据目录。

我对适用于 Apache Spark 的 AWS EMR 有同样的需求。看来我可以直接从 EMR 或通过 AWS Glue 数据目录使用 Hudi。

现在，我不知道该选择什么方式。您能否告知通过 AWS Glue 数据目录使用 Hudi 有什么好处，还是我需要直接从 Redshift Spectrum 和 AWS EMR 使用它？

鉴于在 EMR 上使用 Spark，您需要一个目录，如果需要，还需要 Hive 元存储，然后可以选择使用 AWS Glue 目录。

如果您选择使用 Glue 作为 Metastore，则将其用作所有数据的来源。除非错误很明显，否则使用 Hudi api for Spark。