Kinesis Glue S3 需要一分多钟才能生成新数据

Kinesis Glue S3 takes more than a minute to generate new data

我正在尝试实施大约每 5 秒更新一次的实时或接近实时的管道。

我创建了一个每秒向运动数据流写入 1 条记录的生产者,并将其连接到粘合作业 运行 火花流。一旦我 运行 作业,我观察到 s3 和 Athena 中的数据更新,并观察到批处理和保存新数据需要 2-3 分钟。

我将工人数量从 2 个增加到 20 个,但这只会加快每 1-2 分钟更新一次的速度。

这是 spark 的局限性吗?他们怎么说 spark 接近实时而不是真正的实时?

我将尝试使用 lambda 和 dynamodb 更快地实现一些东西,但我真的很想知道使用 Glue 进行 5 秒更新是否可行。

谢谢!

By default, AWS Glue processes and writes out data in 100-second windows. This allows data to be processed efficiently and permits aggregations to be performed on data arriving later than expected. You can modify this window size to increase timeliness or aggregation accuracy.

您可以尝试使用 this function 并更改 windowSize