数据湖如何存储数据以及采用何种格式?
How does a Data Lake Store Data and what Format?
我听说 Data Lakes 可以存储任何类型的数据:关系、NoSql、Pictures/images、Adobe Pdf、Excel。
数据是如何存储的,是 No-SQL 格式,还是二叉树?或者它只是像普通硬盘一样保存它?如果是这样,他们为什么不称其为存储而不是数据湖呢?我正在尝试找到 'data lake'
的确切存储机制
数据湖是以自然格式存储的数据系统或存储库,[1] 通常是对象 blob 或文件。数据湖通常是所有企业数据的单一存储,包括源系统数据的原始副本和用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)和二进制数据(图片、音频、视频)。
示例:用于托管数据湖的技术示例之一是 Apache Hadoop 中使用的分布式文件系统。
许多公司还使用云存储服务,例如 Azure Data Lake 和 Amazon S3。[9]学术界对数据湖的概念逐渐产生兴趣,例如,卡迪夫大学的 Personal DataLake[10] 创建了一种新型数据湖,旨在通过提供收集、组织的单点来管理个人用户的大数据,并共享个人数据。[11]
早期的数据湖 (Hadoop 1.0) 的面向批处理的处理 (MapReduce) 功能有限,并且是唯一与之关联的处理范例。与数据湖交互意味着您必须具备 Java 使用 map reduce 和更高级别工具(如 Apache Pig 和 Apache Hive(它们本身是面向批处理的))的专业知识。随着 Hadoop 2.0 的出现以及 YARN(又一个资源协商器)接管资源管理的职责分离,新的处理范例,如流式处理、交互式、在线,已经通过 Hadoop 和数据湖变得可用。
我听说 Data Lakes 可以存储任何类型的数据:关系、NoSql、Pictures/images、Adobe Pdf、Excel。 数据是如何存储的,是 No-SQL 格式,还是二叉树?或者它只是像普通硬盘一样保存它?如果是这样,他们为什么不称其为存储而不是数据湖呢?我正在尝试找到 'data lake'
的确切存储机制数据湖是以自然格式存储的数据系统或存储库,[1] 通常是对象 blob 或文件。数据湖通常是所有企业数据的单一存储,包括源系统数据的原始副本和用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、PDF)和二进制数据(图片、音频、视频)。
示例:用于托管数据湖的技术示例之一是 Apache Hadoop 中使用的分布式文件系统。
许多公司还使用云存储服务,例如 Azure Data Lake 和 Amazon S3。[9]学术界对数据湖的概念逐渐产生兴趣,例如,卡迪夫大学的 Personal DataLake[10] 创建了一种新型数据湖,旨在通过提供收集、组织的单点来管理个人用户的大数据,并共享个人数据。[11]
早期的数据湖 (Hadoop 1.0) 的面向批处理的处理 (MapReduce) 功能有限,并且是唯一与之关联的处理范例。与数据湖交互意味着您必须具备 Java 使用 map reduce 和更高级别工具(如 Apache Pig 和 Apache Hive(它们本身是面向批处理的))的专业知识。随着 Hadoop 2.0 的出现以及 YARN(又一个资源协商器)接管资源管理的职责分离,新的处理范例,如流式处理、交互式、在线,已经通过 Hadoop 和数据湖变得可用。