从零开始构建数据湖

Building Data Lake from scratch

我正在尝试从头开始构建 "Data Lake"。我了解数据湖的工作原理及其用途;互联网上到处都是。但是当问题出现时如何从头开始构建一个没有来源。我想了解如果:

Data warehouse + Hadoop = Data Lake

我知道如何 运行 Hadoop 并将数据导入 Hadoop。 我想构建一个本地数据湖示例来演示我的经理。任何帮助表示赞赏。

您必须拥有结构化和非结构化数据才能将 Hadoop 集群变成数据湖。

因此,您必须有一些 ETL 管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的东西会提供你的非结构化数据。将其转换为 Hive 可用的内容(作为示例)将为您提供结构化数据。

我会查看 https://opendata.stackexchange.com/ 获取数据,并查看 google Hadoop ETL 了解如何清理数据。如何编写管道(Spark 或 MapReduce)取决于您。

您可以使用 AWS 服务构建数据湖。一种简单的方法是使用 AWS CloudFormation 模板来配置解决方案,包括 AWS 服务,例如用于无限数据存储的 Amazon S3、用于身份验证的 Amazon Cognito、用于强大搜索功能的 Amazon Elasticsearch、用于微服务的 AWS Lambda、用于数据传输,Amazon Athena 用于数据分析。下图是使用AWS服务在AWS上构建数据湖的完整架构。

参考这篇文章:https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e