大数据与数据湖的比较、异同

Comparison between Big Data and Data Lakes , difference and similarities

谁能告诉我大数据和数据湖之间的异同。

到处都找不到满意的答案。

我认为,我们不能比较和区分这两个术语,因为数据湖是大数据的同义词。数据湖=企业数据+非结构化数据+半结构化数据。

另一方面,它是数据存储库,您可以存储任何类型的数据并用于分析目的。大多数数据将存储在 Hadoop 文件系统 (HDFS) 中,其中 "big data" 涉及存储和其他一些处理技术。

大数据和数据湖是两个不同的东西。 数据湖是一个概念,您可以使用不同的机制存储所有数据并轻松访问。数据湖可以维护在 s3 或 redshift 或任何其他存储平台上。 大数据是用于处理大量数据的术语。主要参考Hadoop、Spark等大数据解决方案。

大数据 是一个以非常不同的方式使用的术语,甚至可以称之为流行语。通常,它被用作数字技术 digitization, industry 4.0 以及与数字化转型相关的许多主题的统称。

在不太笼统的解释中,大数据只是指复杂的大型数据集。术语 "big" 然后指的是三个维度(参见 Wikipedia on Big Data

  1. volume,即数据集的大小
  2. 生成数据量的速度
  3. 数据类型和来源的多样性

一个Data Lake指的是一种如何存储大数据的方法。存储数据的其他可能性一方面是传统数据库,也称为 关系数据库管理系统 (RDBMS),另一方面是 数据仓库 ,例如 Data Lake vs. Data Warehouse vs. Database: What’s The Difference?