汇合的 s3 源连接器如何知道它已经摄取了哪些文件以及哪些是新文件?
how does the confluent s3 source connector know which files it has already ingested and which ones are new?
https://docs.confluent.io/kafka-connect-s3-source/current/
我认为此连接器会轮询 s3 以获取文件列表 -- 但它是否会保留关于哪些文件已处理以及哪些文件是新文件的状态?如果它确实存储状态,那么状态存储在哪里?
一般来说,源连接器将状态存储在配置的 config.offsets.topic
中,虽然我没有使用过这个特定的连接器,但我想它必须依赖于单调递增的 S3 密钥,例如那些编写的由相应的 S3 接收器,因此不应期望对任何随机 S3 桶工作
中有一些关于常规文件源连接器的详细信息
https://docs.confluent.io/kafka-connect-s3-source/current/
我认为此连接器会轮询 s3 以获取文件列表 -- 但它是否会保留关于哪些文件已处理以及哪些文件是新文件的状态?如果它确实存储状态,那么状态存储在哪里?
一般来说,源连接器将状态存储在配置的 config.offsets.topic
中,虽然我没有使用过这个特定的连接器,但我想它必须依赖于单调递增的 S3 密钥,例如那些编写的由相应的 S3 接收器,因此不应期望对任何随机 S3 桶工作