在可以使用 API 访问的低成本存储中归档结构化数据的最佳方法是什么?

What is the best way to archive structured data in low cost storage that can be accessed using API?

我在 MySQL 数据库中有几百 GB 的数据,我想将这些数据存档在低成本的云存储中。同时,我仍然希望可以使用 API 轻松访问和检索数据。我正在寻找一种独立于技术的解决方案(不依赖于任何特定的数据库引擎)。

预计检索频率会非常低,但我希望检索的“成本”(即工作量)也保持在较低水平。我可以忍受更高的延迟来检索数据。

我正在考虑使用 Spark/Databricks(提供结构化 API 接口)和长期存储解决方案,例如 Azure Data Lake Storage Gen2(提供低成本存储)。

这是最佳解决方案还是有更好的选择?

谢谢。

是的,Azure Data Lake Storage Gen2 (ADLS2) 是将数据以低成本存储在存档中的最佳云服务。

查看详细定价here

要在 ADLS2 中存档数据,同时创建存储帐户,在“高级”选项卡中 select 冷访问层。同时勾选 Enable hierarchical namespace 选项。

高级 -> 访问层 -> 酷

您可以使用 Azure 存储帐户访问密钥轻松验证和访问 Azure Data Lake Storage Gen2 (ADLS Gen2) 存储帐户。 Apache Spark 提供多种 API(RDD、DataFrame、DataSet),可以帮助您根据需要访问和转换数据。

要了解有关 API 的更多信息,请参阅:Databricks with ADLS Gen2, RDDs vs DataFrames and Datasets

注意:要检索数据,您必须将 ADLS 访问层更改为热。