Sqoop 与 Informatica 大数据版本的数据来源对比

Sqoop vs Informatica Big Data edition for Data sourcing

我可以选择使用 Sqoop 或 Informatica 大数据版将数据源导入 HDFS。源系统是 Tearadata、Oracle。

我想知道哪个更好以及背后的原因。

注意: 我当前的实用程序能够使用 sqoop 将数据拉入 HDFS ,创建 Hive staging table 并存档外部 table.

Informatica 是组织中使用的 ETL 工具。

问候 桑吉布

Sqoop

  • Sqoop 能够从 Oracle/Teradata.
  • 执行完全加载和增量加载
  • Sqoop 从源系统并行复制数据。
  • Sqoop 脚本可以由 Oozie 自定义生成和调度。
  • 适用于任何规模集群的开源解决方案。无许可费用。

Informatica

  • ETL 行业中用于管理映射的最佳界面。
  • 不提供并行复制选项。提供并行处理的 Hive 模式。基本上将转换转换为 Hive 查询以执行。还支持下推生成MR代码。
  • 每个节点的许可成本。如果你计划 500 个 Hadoop 节点用于未来的数据存储,那么当你扩展集群时,你需要支付 10 倍于 50 个节点集群的费用。
  • Informatica BDE 是市场上相对较新的产品。 INFA Developer 将有助于处理大数据。在 Informatica 上支持所有最新的 Hadoop 平台功能以及 Informatica BDE 中的序列生成、状态映射、会话、查找转换等传统 RDBMS 功能存在挑战。
  • Informatica MDM 不支持 Hadoop。

如果价格是决策的标准,请选择 Sqoop。如果你想利用切换Hadoop平台工具的灵活性,使用Sqoop(Sqoop项目也在考虑迁移到Spark)。 如果您出于某种原因依赖于 Informatica,请选择 Informatica。但大多数 Informatica 开发人员希望转向 Hadoop 技术。

尽管这是一年前提出的问题,分享 Informatica 中的新功能

Informatica BDM 版本 10.1 支持 Sqoop 连接,即您可以使用 Sqoop 从 RDBMS 读取数据并将其加载到 Hadoop/Hive

此外,BDM 10.2 版中还有许多新功能,尤其是开发人员工具中的参数化支持和动态映射。

工具与手工编码总是存在的。 Informatica 工具提供更易于维护的企业级解决方案。

BDM 10.1.1 支持带有 spark 引擎的 sqoop。此版本支持 Spark 2.0.1,因此性能非常好。 BDM 10.2 刚刚发布,具有早期版本中缺少的状态变量支持等新功能。

SQOOP 必须用于数据交换。您有很多选项可以使您获得最佳性能。此外,如果您尝试在 RDBMS(Teradata / Oracle) <-> Informatica <-> Hadoop 集群之间交换数据,则首先需要将数据传送到 Informatica Server,这可能涉及额外的 I/O.

如果必须在hive中进行数据处理,必须使用Informatica BDE。