如何设置批量处理的文件数量？

How to set the number of documents processed in a batch?

对于 Spark 2.2.0，检查点的工作方式与其他版本略有不同。有一个提交文件夹被创建，每批完成后一个文件被写入该文件夹。

我遇到这样一种情况，我有大约 10k 条记录，并且说我的流式处理作业在处理 5k 条记录后大约在中间失败，没有文件写入检查点目录中的提交文件夹，因此当我重新启动作业，它从头开始，有 5k 条记录的数据重复。

据我了解，当写入提交文件时，当您重新启动时，它会从最新的偏移量中获取数据，否则它会重新处理上一次成功批次中的数据。

如何设置批量处理文档的个数？

Is there a way I could set the number of documents to be processed in the batch?

对文件使用 maxFilesPerTrigger，对 kafka 格式使用 maxOffsetsPerTrigger。