亚马逊雅典娜和融合模式注册表

amazon athena and confluent schema registry

我们计划将事件从 Kafka 卸载到 S3(例如,通过使用 kafka connect)。目标是启动一项服务(例如像亚马逊 Athena)并在导出的 avro 事件之上提供一个查询界面。障碍在于 amazon Athena avro SerDe(使用 org.apache.hadoop.hive.serde2.avro.AvroSerDe)不支持模式注册表用于存储模式 ID 的魔法字节。您是否知道可以与融合模式注册表一起使用的任何替代方案?

谢谢!

使用 S3 Connect 的 AvroConverter 不会将任何架构 ID 放入文件中。事实上,在写入消息后,您将完全丢失架构 ID。

我们有很多 Hive 表可以很好地处理这些文件,用户正在使用 Athena、Presto 进行查询。 SparkSQL 等

注意:如果您想使用 AWS Glue,S3 Connect(目前,从 5.x 开始)不提供像 HDFS 连接器那样的自动 Hive 分区创建,因此您可能需要寻找替代方案,如果你想那样使用它。