在执行期间更改 Spark Streaming 中的批量大小
Changing batch size in Spark Streaming during the execution
有没有办法改变 Spark Streaming 中的批处理间隔持续时间(即,取决于代码中的某些测试),以便它不会在所有计算时间内保持不变?
例如,在 Python 中编码时,批处理间隔持续时间是
中的第二个参数
StreamingContext(sparkContext: SparkContext, batchDuration: Duration)
;
例如,ssc = StreamingContext(sc, 1)
、
据我所知,它在执行过程中不会改变。
在 Spark 中是否可以在计算期间使其可变,即根据某些测试的输出?
可能使用的愚蠢示例:在 class newtork_wordcount.py
中,如果前一个批次间隔中的特定字符串(或行)增加批次间隔持续时间。
希望我说得够清楚了!
感谢任何愿意提供帮助的人!祝你今天过得愉快! :-)
我认为您不能更改 Spark Streaming 中的批量大小,至少 Tathagata Das 在他的一次演讲中是这么说的。
实际上,TD 的 paper 可能会回答您的问题。他尝试使用动态批处理间隔并获得更好的结果。
有没有办法改变 Spark Streaming 中的批处理间隔持续时间(即,取决于代码中的某些测试),以便它不会在所有计算时间内保持不变?
例如,在 Python 中编码时,批处理间隔持续时间是
中的第二个参数StreamingContext(sparkContext: SparkContext, batchDuration: Duration)
;
例如,ssc = StreamingContext(sc, 1)
、
据我所知,它在执行过程中不会改变。
在 Spark 中是否可以在计算期间使其可变,即根据某些测试的输出?
可能使用的愚蠢示例:在 class newtork_wordcount.py
中,如果前一个批次间隔中的特定字符串(或行)增加批次间隔持续时间。
希望我说得够清楚了!
感谢任何愿意提供帮助的人!祝你今天过得愉快! :-)
我认为您不能更改 Spark Streaming 中的批量大小,至少 Tathagata Das 在他的一次演讲中是这么说的。
实际上,TD 的 paper 可能会回答您的问题。他尝试使用动态批处理间隔并获得更好的结果。