HDFS 和 ADLS 有什么区别?

What is the differnce between HDFS and ADLS?

我对 Azure Data Lake Store 与 HDFS 的不同之处感到困惑。谁能简单解释一下?

  • HDFS 是一个文件系统。 HDFS 代表 Hadoop 分布式文件系统。它是 Apache Hadoop 生态系统的一部分。 Read more on HDFS

  • ADLS 是 Microsoft 提供的 Azure 存储产品。 ADLS 代表 Azure 数据湖存储。为批量数据处理需求提供分布式存储文件格式。

    • ADLS 具有称为 Azure Blob 文件系统 (ABFS) 的内部分布式文件系统格式。此外,它还提供类似Hadoop 的文件系统接口API,使用URI scheme 对ADLS 内部的文件和目录进行寻址。这样,使用 HDFS 的应用程序可以更轻松地迁移到 ADLS,而无需更改代码。对于客户端,使用HDFS驱动访问HDFS,使用ABFS驱动访问ADLS也有类似的体验。

Azure Data Lake Storage Gen2 URI

The Hadoop Filesystem driver that is compatible with Azure Data Lake Storage Gen2 is known by its scheme identifier abfs (Azure Blob File System). Consistent with other Hadoop Filesystem drivers, the ABFS driver employs a URI format to address files and directories within a Data Lake Storage Gen2 capable account.

More on Azure Data Lake Storage

Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). The new ABFS driver is available within all Apache Hadoop environments, including Azure HDInsight, Azure Databricks, and Azure Synapse Analytics to access data stored in Data Lake Storage Gen2.

更新 另外,阅读 Hadoop 兼容文件系统 (HCFS),它确保分布式文件系统(如 Azure Blob 存储)API 满足一组要求以满足与 Apache Hadoop 生态系统的工作,类似于 HDFS。 More on HCFS

ADLS 可以被认为是微软管理的 HDFS。所以本质上,您可以使用他们的托管服务(无需修改任何分析或下游代码),而不是在 Azure 上设置您自己的 HDFS