数据湖中的数据保留策略

Data Retention Policies in Data Lake

我是 Azure Data Lake 世界的新手。我正在寻找任何必要的先决条件和注意事项,以便使用 azure data lake。我为此找到了一个很好的 link 并且发现 quiet 很有用。 http://www.sqlchick.com/entries/2016/7/31/data-lake-use-cases-and-planning

现在,我不确定的一件事是数据湖中的数据保留策略。有人说数据不应该 deleted/purged 来自数据湖,但很少有人持不同意见。

那么,对于任何数据湖中的数据保留策略(存档、清除),我们是否需要遵循任何具体和基本的注意事项?我知道用例将是这方面的决定因素,但我的问题是在决定之前是否需要进行任何高层次的考虑。

谢谢,

我认为你的主要因素是:

  1. 是否有使数据过期的法律义务?
  2. 数据过期是否有成本原因?
  3. 是否存在您不再关心旧数据(并且愿意在未来被证明是错误的)的陈旧因素?

定价也可能是一个因素:

Azure Data Lake Store 上的 10TB - 390 美元/月

10TB Azure Blob 存储 - 152 美元/月

至于分片与删除相关的问题,类似于RDBMS数据仓库,我不知道。

梅丽莎·科茨 (Melissa Coates) 去年 10 月发表的那篇文章做得很好。感谢分享。