如何定期设置 kafka 连接器 运行 并以适当的偏移量恢复?

How to set kafka connector run regularly and resume at the proper offsets?

我想使用 kafka connect 从 kafka 服务器获取数据并移动到 s3。
但是,我想知道如何定期将其设置为 运行,例如。每小时一次?
然后停下来。
然后在我上次停止的偏移处恢复到下一轮的运行?
我如何存储这些偏移量?如何设置这些属性?

Kafka connect 框架用于连续流 from/to kafka。对于您提到的要求,似乎您需要 s3 sink connector 除非有特定需要以批处理方式进行。请参考kafka s3 connector doc

正如其他答案所提到的,Kafka Connect 不适用于 "once an hour" 工作。

备选、批量、解决方案是Apache Gobblin, which can be ran on a schedule to write files to S3