汇合的 s3 源连接器如何知道它已经摄取了哪些文件以及哪些是新文件？

how does the confluent s3 source connector know which files it has already ingested and which ones are new?

https://docs.confluent.io/kafka-connect-s3-source/current/

我认为此连接器会轮询 s3 以获取文件列表 -- 但它是否会保留关于哪些文件已处理以及哪些文件是新文件的状态？如果它确实存储状态，那么状态存储在哪里？

一般来说，源连接器将状态存储在配置的 config.offsets.topic 中，虽然我没有使用过这个特定的连接器，但我想它必须依赖于单调递增的 S3 密钥，例如那些编写的由相应的 S3 接收器，因此不应期望对任何随机 S3 桶工作

中有一些关于常规文件源连接器的详细信息