使用kafka-connect将数据摄取到s3时如何根据json字段的一部分进行分区

Question

我正在尝试使用 s3-sink kafka 连接器将一些 json 数据存储到 s3 中。我的 json 格式如下：

{
   "server": someserver,
   "id": someid,
   "time": "2018-01-18T23:47:03.737487Z"
}

我想根据数据所在的时间对我的数据进行分区，但忽略分钟和秒。例如。上面的 json 将属于 2018-01-18T23 目录。我应该如何在属性文件中设置 field.partition 来实现这一点？

非常感谢！

Answer 1

实现您用 Confluent's S3 connector 描述的粗略方法是：

请注意，连接器附带了一个预定义的基于时间的分区程序 class，您可能会发现它对您的用例很有用。您可以通过设置使用它：

partitioner.class=io.confluent.connect.storage.partitioner.HourlyPartitioner

How to partition based on part of json field when using kafka-connect to ingest data to s3