Azure 数据资源管理器 (ADX) 与 Polybase 与 Databricks

Azure Data Explorer (ADX) vs Polybase vs Databricks

问题

今天我发现了另一个名为 Azure Data Explorer (ADX) 的 Azure 服务。对于这样的服务比较,我很抱歉,除了 ADX 之外,我对所有服务都有很好的了解。我觉得有很大的功能叠加,所以想知道 ADX 在 Azure 基础架构中的确切作用。

当 ADX 明显优于 Synapse/Databricks 时的用例是什么?

我对ADX的理解

AFAIK,ADX 是一个集群(按小时计费,与 Databricks 或 Synapse 不同,与 ADLA 不同)为您处理数据库,并针对大规模流式摄取和临时查询进行了优化。它还支持外部表,性能较差但更便宜(您为 Blob/ADLS 存储付费)。

详情

我不明白为什么我们需要 ADX,如果:

  1. Azure Synapse 具有类似的定价模型(集群,每小时),它还支持大规模的流式摄取和临时查询。 Azure Synapse 支持通过 Polybase 外部表查询 BlobStorage/ADLS。
  2. Databricks 是另一项能够做到这一点的服务。使用 Databricks Ingest 和 Delta Lake - 您可以摄取流数据并以两种方式使用它们:流和批处理方式。实际上,您可以拥有交互式集群来为您处理临时查询。
  3. 此外,如果您想要实时分析 - 使用 Azure 流分析。如果您想要 Athena 般的体验 - 使用 ADLA(仍然不支持 ADLS gen2)。

Azure Data Explorer 别名 Kusto 专注于大量数据摄取和几乎实时的查询和分析。它是 Microsoft 为日志和遥测分析而发明的,但也可用于其他目的,例如物联网、传感器数据或网络分析。 Azure 内部服务(如 Azure Monitor 和 Log Analytics)中使用了相同的技术。

可以在 Synapse、Databricks 或 HDInsight 上构建类似的功能,但我认为这些是适合更广泛用例的工具。 ADX 的焦点非常狭窄。 ADX 确实支持查询 (“KQL”),但 SQL 支持非常有限。它适用于仅附加数据,不适用于更新。它不是数据仓库、数据库或数据湖。

Microsoft material 引用名为 Kusto 的 ADX 背后的技术。有关更多信息,请访问 https://docs.microsoft.com/en-us/azure/data-explorer/kusto/concepts/. A good comparison of services can be found in this blog post: https://vincentlauzon.com/2020/02/19/azure-data-explorer-kusto

Azure Data Explorer 专注于高速、大容量、高方差(大数据的 3 V)。它为流入的此类数据提供超快速的交互式查询。它本身支持 json 和文本,包括全文搜索和索引。

它用于与大量垂直领域中的传感 activity 和时间序列相关的广泛场景:物联网、API 日志、事务监控和临时数据探索。

Microsoft 提供 ADX 即服务,因为它是 Microsoft 用于其自身遥测的主要服务,也是我们在安全、运营监控、游戏分析、产品洞察使用分析方面提供的所有分析解决方案即服务, Iot, Connected vehicles是建立在ADX之上的。您可以在我们的文档中找到完整列表。为清楚起见,SQL、Synapse、CosmosDB 将其遥测数据存储在 Azure 数据资源管理器中...

SQL DW(AKA Synapse SQL pool)是一个优秀的数据仓库,实现了现代数据仓库模式。 ETL->Curated data model-> Load and serve via analysis services or power BI.
ADX 用于实时分析,支持在几秒钟前的数据上应用读取模式 (SOR)。

在替换用于日志、时间序列数据库等的基于 SOLR/Lucine 的变体时,将 ADX 视为一个完全托管的平台。

在大型工作负载中试用它,您会发现它比替代方案便宜得多,而且功能更强大、性能更高。

如果您需要帮助,请联系我。