如何设置批量处理的文件数量?
How to set the number of documents processed in a batch?
对于 Spark 2.2.0,检查点的工作方式与其他版本略有不同。有一个提交文件夹被创建,每批完成后一个文件被写入该文件夹。
我遇到这样一种情况,我有大约 10k 条记录,并且说我的流式处理作业在处理 5k 条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业,它从头开始,有 5k 条记录的数据重复。
据我了解,当写入提交文件时,当您重新启动时,它会从最新的偏移量中获取数据,否则它会重新处理上一次成功批次中的数据。
如何设置批量处理文档的个数?
Is there a way I could set the number of documents to be processed in the batch?
对文件使用 maxFilesPerTrigger
,对 kafka
格式使用 maxOffsetsPerTrigger
。
对于 Spark 2.2.0,检查点的工作方式与其他版本略有不同。有一个提交文件夹被创建,每批完成后一个文件被写入该文件夹。
我遇到这样一种情况,我有大约 10k 条记录,并且说我的流式处理作业在处理 5k 条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业,它从头开始,有 5k 条记录的数据重复。
据我了解,当写入提交文件时,当您重新启动时,它会从最新的偏移量中获取数据,否则它会重新处理上一次成功批次中的数据。
如何设置批量处理文档的个数?
Is there a way I could set the number of documents to be processed in the batch?
对文件使用 maxFilesPerTrigger
,对 kafka
格式使用 maxOffsetsPerTrigger
。