为什么 spark streaming 被称为接近实时？

why is spark streaming called near real time?

我知道 spark streaming 使用微批处理数据，但在某些情况下，处理时间不到一秒。我的问题是 "Can't it be called pure real time processing rather than near real time processing in that senario?"

我想说的是，当数据被收集并直接推送到仪表板或系统时，我们只能谈论指标、警报和优化的实时性，没有任何类型的 ETL 过程，实时的目的是，主要是速度。

每当有一个批处理提取历史趋势或基准测试的过程时，尽管它花费的时间不到一秒，但不是实时但接近实时，那是因为他们谈论近实时。

因此，为了回答您的问题，我会说不，这接近实时，因为您正在进行批处理和处理。

希望对您有所帮助。

胡安

Spark Streaming 将数据流分成 X 秒的批次，称为 Dstreams，其内部是一系列 RDD，每个批次间隔一个。每个 RDD 都包含批处理期间接收到的记录 interval.since 它的小批量处理称为接近实时而非实时。

为什么 spark streaming 被称为接近实时？

why is spark streaming called near real time?

real-time

near-real-time

pyspark