大数据与数据湖的比较、异同
Comparison between Big Data and Data Lakes , difference and similarities
谁能告诉我大数据和数据湖之间的异同。
到处都找不到满意的答案。
我认为,我们不能比较和区分这两个术语,因为数据湖是大数据的同义词。数据湖=企业数据+非结构化数据+半结构化数据。
另一方面,它是数据存储库,您可以存储任何类型的数据并用于分析目的。大多数数据将存储在 Hadoop 文件系统 (HDFS) 中,其中 "big data" 涉及存储和其他一些处理技术。
大数据和数据湖是两个不同的东西。
数据湖是一个概念,您可以使用不同的机制存储所有数据并轻松访问。数据湖可以维护在 s3 或 redshift 或任何其他存储平台上。
大数据是用于处理大量数据的术语。主要参考Hadoop、Spark等大数据解决方案。
大数据 是一个以非常不同的方式使用的术语,甚至可以称之为流行语。通常,它被用作数字技术 digitization, industry 4.0 以及与数字化转型相关的许多主题的统称。
在不太笼统的解释中,大数据只是指复杂的大型数据集。术语 "big" 然后指的是三个维度(参见 Wikipedia on Big Data)
- volume,即数据集的大小
- 生成数据量的速度
- 数据类型和来源的多样性
一个Data Lake指的是一种如何存储大数据的方法。存储数据的其他可能性一方面是传统数据库,也称为 关系数据库管理系统 (RDBMS),另一方面是 数据仓库 ,例如 Data Lake vs. Data Warehouse vs. Database: What’s The Difference?
谁能告诉我大数据和数据湖之间的异同。
到处都找不到满意的答案。
我认为,我们不能比较和区分这两个术语,因为数据湖是大数据的同义词。数据湖=企业数据+非结构化数据+半结构化数据。
另一方面,它是数据存储库,您可以存储任何类型的数据并用于分析目的。大多数数据将存储在 Hadoop 文件系统 (HDFS) 中,其中 "big data" 涉及存储和其他一些处理技术。
大数据和数据湖是两个不同的东西。 数据湖是一个概念,您可以使用不同的机制存储所有数据并轻松访问。数据湖可以维护在 s3 或 redshift 或任何其他存储平台上。 大数据是用于处理大量数据的术语。主要参考Hadoop、Spark等大数据解决方案。
大数据 是一个以非常不同的方式使用的术语,甚至可以称之为流行语。通常,它被用作数字技术 digitization, industry 4.0 以及与数字化转型相关的许多主题的统称。
在不太笼统的解释中,大数据只是指复杂的大型数据集。术语 "big" 然后指的是三个维度(参见 Wikipedia on Big Data)
- volume,即数据集的大小
- 生成数据量的速度
- 数据类型和来源的多样性
一个Data Lake指的是一种如何存储大数据的方法。存储数据的其他可能性一方面是传统数据库,也称为 关系数据库管理系统 (RDBMS),另一方面是 数据仓库 ,例如 Data Lake vs. Data Warehouse vs. Database: What’s The Difference?