Pentaho 和 Hadoop

Pentaho and Hadoop

如果这个问题看起来很幼稚,我很抱歉,但我是数据工程领域的新手,因为我现在是自学者,但是我的问题是 Pentaho 和 Hadoop 等 ETL 产品之间有什么区别? 当我用这个而不是那个?或者我可以一起使用它们,怎么样?

谢谢,

ETL 是一种提取数据、转换(连接、丰富、过滤...)数据并将结果加载到另一个数据存储中的工具。好的 ETLS 是可视化的、数据存储不可知的并且易于自动化。

Hadoop 是一种分布在集群网络上的数据存储以及用于处理分散数据的软件。数据转换专门针对少数基本操作,这些操作可以针对这种通常大量的数据进行优化,例如(但不仅限于)Map-Reduce。

Pentaho Data Integrator 具有连接到 Hadoop 系统的连接器,这些连接器易于设置和调整。所以最好的策略是将 Hadoop 网络设置为数据存储并通过 PDI 对其进行操作。

Pentaho PDI 是一个用于创建、管理、运行宁和监控 ETL 工作流的工具。它可以与 Hadoop、RDBMS、队列、文件等一起工作。Hadoop 是一个用于分布式计算(Map-Reduce 框架、HDFS 等)的平台。许多工具可以 运行 在 Hadoop 上,或者可以连接到 Hadoop 并使用它的数据,运行 进程。

Pentaho PDI 可以使用它自己的连接器和 write/read 数据连接到 Hadoop。您可以从 PDI 启动 Hadopp 作业,它也可以在转换流中自行处理数据,并将结果存储或发送到 HDFS、RDBMS、某些队列、电子邮件等。当然,您可以为 ETL 工作流发明自己的工具,或者简单地使用 bash+Hive等,但PDI允许ETL统一处理,不依赖于数据源和目标。 Pentaho 也有很好的可视化。