HDInsight - Azure blob 存储

HDInsight - Azure blob storage

我对 azure hdInsight 有一些基本的说明。 以下文章提供了有关使用 hdinsight 的一些基本输入。 https://azure.microsoft.com/en-in/documentation/articles/hdinsight-hadoop-emulator-get-started/.

它说 HDinsight 内部使用 azure blob 存储。 考虑到这一点,我的问题如下:

我有一个使用存储帐户 stg1 的 hdinsight hd1。 如果我只想使用 azure storage explorer 将文件上传和下载到 stg1 ,那么拥有 hd1 有什么用,我什至无需创建成本很高的 hdinsight 就可以做到。 那么,hadoop hdinsight 是否仅用于处理存储在 stg1 中的一些数据以产生一些结果,例如 wordcount?这是我们使用 HDInsight 的唯一原因吗?

HDInsight is a family of products, including Hadoop, Spark, HBase, and Storm。他们都做不同的事情,存储只是一方面。

如果您想更好地了解 HDInsight 和 blob 存储,您需要阅读 https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-use-blob-storage/

HDInsight 是 Microsoft 的 Hadoop 实现。到目前为止,有 4 种不同的基本类型,包括 Hadoop、HBase、Storm、Spark。您始终可以将其他组件安装到基本类型。

您的问题实际上是关于为什么使用 Hadoop。当您需要处理大量数据 - 大数据时,Hadoop 大放异彩。

HDInsight 与其他 Hadoop 实现之间的差异之一是存储(blob 存储)与计算(HDInsight 群集)的分离。您仍然需要复制数据(或将数据直接存储在 Azure blob 存储中)。当您准备好处理时,您可以创建一个 HDInsight 群集,提交作业,然后删除该群集。您删除集群,这样您就不需要再为集群付费。即使在集群被删除后,您存储在 Blob 存储中的日期仍然存在。