StreamAnalyticsJob Blob 输出生成与输入 EventHub 的分区数一样多的文件?
StreamAnalyticsJob Blob Output produces as many files as the number of partitions of input EventHub?
我有一个 EventHub(包含 json 格式的实体作为事件),它是我的流分析作业的输入。我在我的 EH 上创建了 4 个分区,但没有任何分区键,所以理论上数据分布在 RoundRobin 中。
我的 StreamAnlytics 查询非常简单 SELECT * FROM EventHub
OUTPUT TO BLOB
。 blob 输出每 5 分钟配置一次数据聚合,文件格式为 <date><HH>
.
我在我的 blob 存储上每小时看到 4 个文件,这是预期的吗? SA内部是否同时分别读取每个分区?
抱歉,这听起来可能很天真,我对此很陌生,很想知道 SA 的内部工作原理。
是的,这是预期的。
流分析作业可以并行使用和写入不同的分区,从而提高吞吐量。
我有一个 EventHub(包含 json 格式的实体作为事件),它是我的流分析作业的输入。我在我的 EH 上创建了 4 个分区,但没有任何分区键,所以理论上数据分布在 RoundRobin 中。
我的 StreamAnlytics 查询非常简单 SELECT * FROM EventHub
OUTPUT TO BLOB
。 blob 输出每 5 分钟配置一次数据聚合,文件格式为 <date><HH>
.
我在我的 blob 存储上每小时看到 4 个文件,这是预期的吗? SA内部是否同时分别读取每个分区?
抱歉,这听起来可能很天真,我对此很陌生,很想知道 SA 的内部工作原理。
是的,这是预期的。
流分析作业可以并行使用和写入不同的分区,从而提高吞吐量。