数据湖和大数据是一回事吗?

Is Data Lake and Big Data the same?

如果你检查数据湖和大数据之间的真正区别,我试图理解所有这些概念,两者都像一个大存储库,它保存信息直到有必要,所以,我们什么时候可以说我们正在使用大数据或数据湖?

提前致谢

我不能说我以前遇到过'big repository'这个词,但是回答原来的问题,不,数据湖和大数据不一样,尽管公平地说它们都被抛出很多,定义因你问的人而异,但我会尝试试一试:


大数据

用于描述周围的技术生态系统,以及在某种程度上处理的行业,这些数据在某种程度上太大或太复杂而无法方便地存储 and/or 通过传统方式处理。

有时这可能是纯粹的数据量问题:一旦达到 100 TB 或 PB 级,您的老式 RDBMS 数据库往往会认输,我们被迫将数据分散到许多磁盘,而不仅仅是一个大磁盘。在这些数量下,我们希望并行化我们的工作负载,从而产生诸如 MPP 数据库、Hadoop 生态系统和基于 DAG 的处理之类的东西。

然而,单凭销量并不能说明全部。所谓的“4 V”描述了大数据的一个流行定义:Volume、Variety、Velocity 和 Veracity。简而言之:

  • Volume - 上面说了,指的是数据量大造成的难度

  • 多样性 - 指处理不同类型数据的内在复杂性;您的一些数据将是结构化的(想想 SQL 数据表),而其他数据可能是半结构化的(XML 文档)或非结构化的(原始图像文件),以及处理此问题的技术多样性是重要的

  • Velocity - 指新数据生成的速度;当收集物联网数据、网络流量、金融交易、数据库更改或任何其他实时发生的实时事件时,'velocity' 流入(在许多情况下流出)您的数据系统,很容易超越传统数据库技术的能力,需要某种可扩展的消息总线 (Kafka) 和可能的复杂事件处理框架(例如 Spark Streaming 或 Apache Flink)

  • Veracity - 最后的 'V',指的是处理数据的额外复杂性,这些数据通常来自您无法控制的来源,并且其中可能包含无效、错误、恶意、畸形或上述所有情况的数据。这增加了对数据验证、数据质量检查、数据标准化等的需求。

在此定义中,'big data' 是由于与 4 V 相关的特殊挑战,不适合使用传统数据库技术处理的数据;而 'big data tools' 是专门为应对这些挑战而设计的工具。


数据湖

相比之下,数据湖通常用作描述某种类型的文件或 blob 存储层的术语,它允许在大数据架构中根据需要存储几乎无限量的结构化和非结构化数据。

一些公司使用术语 'Data Lake' 不仅表示存储层,还表示所有相关工具,从摄取、ETL、争论、机器学习、分析,一直到数据仓库堆栈和甚至可能是 BI 和可视化工具。然而,作为一名大数据架构师,我发现这个术语的使用令人困惑,我更喜欢将数据湖和围绕它的工具作为具有不同功能和职责的独立组件来讨论。因此,数据湖的职责是成为您可能想要静态存储的任何类型数据的中央、高持久性存储。

大多数人认为,'data lake' 一词是由 Pentaho 的创始人兼首席技术官 James Dixon 创造的,他是这样描述的:

“If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake, and various users of the lake can come to examine, dive in, or take samples.”

Amazon Web Services 在他们的页面上定义了它 'What Is A Data Lake':

A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.

来自Wikipedia

A data lake is a system or repository of data stored in its natural format, usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, analytics and machine learning.

最后 Gartner:

A data lake is a collection of storage instances of various data assets additional to the originating data sources. These assets are stored in a near-exact, or even exact, copy of the source format. The purpose of a data lake is to present an unrefined view of data to only the most highly skilled analysts, to help them explore their data refinement and analysis techniques independent of any of the system-of-record compromises that may exist in a traditional analytic data store (such as a data mart or data warehouse).

在本地集群上,数据湖通常是指集群上的主要存储,在分布式文件系统中,通常是HDFS,但也存在其他文件系统,例如Google或使用的GFS MapR 集群上的 MapR 文件系统。

在云中,数据湖通常不存储在集群上,因为始终保持集群 运行ning 不符合成本效益,而是存储在持久的云存储上,例如 Amazon S3, Azure ADLS,或 Google 云存储。然后可以按需启动计算集群并无缝连接到云存储以进行 运行 转换、机器学习、分析作业等


希望对您有所帮助,祝您一切顺利,

大数据只是一个术语,用于封装现在正在生成的大量数据。它不涉及任何特定或任何特定数量的数据。

数据湖对我来说 = 读取模式。非结构化数据并在没有关联架构的情况下转储到对象存储或类似存储。

大数据和数据湖是两个相互关联但含义完全不同的术语,这也是人们经常混淆这两个术语的主要原因。那么让我们来简单了解一下两者的区别吧

大数据 顾名思义,大数据就是规模庞大的数据。 PB 级或更多的数据被认为是大数据。不仅是大小,还有一些定义大数据的参数。生成此数据的来源、数据的不同格式以及生成数据的速度,所有这些因素结合起来定义了大数据。 大数据用最简单的话来说就是大量的数据。就是这样。

数据湖 数据湖是大数据的存储库。它存储从不同来源生成的所有类型的数据,即结构化、非结构化和半结构化。它以最原始的形式存储数据。 数据湖不同于数据仓库。数据仓库以结构良好的形式存储数据。数据湖中的数据将来可能会或可能不会被使用,但数据仓库中的数据是为了使用,因为所有不相关的数据都已经被处理掉了。

大数据就是庞大的数据,数据湖就是它的仓库

希望对您有所帮助。

大数据是一个处理分析方法的领域,系统地从中提取信息,或者以其他方式处理传统数据处理应用程序无法处理的大型或复杂数据集。

数据湖是以 natural/raw 格式存储的数据系统或存储库,通常是对象 blob 或文件。数据湖通常是一个单一的数据存储,包括源系统数据、传感器数据、社交数据等的原始副本,以及用于报告、可视化、高级分析和机器学习等任务的转换数据。