流分析和流位置

Stream Analytics and stream position

我有两个关于流分析行为的一般性问题。在有关我的问题的文档中,我没有发现任何信息或(对我而言)误导性信息。

我的两个问题都针对以 EventHub 作为输入源的流分析。

1.流位置

当分析作业启动时,是否只处理启动后传入的事件?是否忽略仍在事件中心管道中的旧事件?

2。长跨度时间window

文档里写着

"The output of the window will be a single event based on the aggregate function used with a timestamp equal to the window end time."

如果我创建了一个 select 语句,例如,7 天的跌幅 window。在关闭 window 并发送结果集之前,作业可以在内存中保存多少个输出元素有任何限制吗?我的意思是在我繁重的工作负载 eventhub 上可以有数百万个输出结果。

对于您的第一个问题,没有任何证据表明流分析会忽略作业启动之前的任何旧事件。实际上,事件生命周期取决于事件中心消息保留(1 ~ 7 天),而不是流分析。但是,您可以为输入指定 eventStartTime & eventEndTime 以根据需要检索这些数据,请参阅流分析的第一个 REST 请求属性 Input.

在 Azure 门户上,它们如下所示。

关于你的第二个问题,根据 Stream Analytics and the reference for Windowing 的 Azure 限制和配额,内存使用没有任何限制,唯一的限制如下。

  1. 对于窗口,"The maximum size of the window in all cases is 7 days."
  2. 对于 Stream Analytis,"Maximum throughput of a Streaming Unit" 是 1MB/s。
  3. 对于事件中心,如下所示。

以上这些都会造成输出延迟