Sqoop 与 Informatica 大数据版本的数据来源对比
Sqoop vs Informatica Big Data edition for Data sourcing
我可以选择使用 Sqoop 或 Informatica 大数据版将数据源导入 HDFS。源系统是 Tearadata、Oracle。
我想知道哪个更好以及背后的原因。
注意:
我当前的实用程序能够使用 sqoop 将数据拉入 HDFS ,创建 Hive staging table 并存档外部 table.
Informatica 是组织中使用的 ETL 工具。
问候
桑吉布
Sqoop
- Sqoop 能够从 Oracle/Teradata.
执行完全加载和增量加载
- Sqoop 从源系统并行复制数据。
- Sqoop 脚本可以由 Oozie 自定义生成和调度。
- 适用于任何规模集群的开源解决方案。无许可费用。
Informatica
- ETL 行业中用于管理映射的最佳界面。
- 不提供并行复制选项。提供并行处理的 Hive 模式。基本上将转换转换为 Hive 查询以执行。还支持下推生成MR代码。
- 每个节点的许可成本。如果你计划 500 个 Hadoop 节点用于未来的数据存储,那么当你扩展集群时,你需要支付 10 倍于 50 个节点集群的费用。
- Informatica BDE 是市场上相对较新的产品。 INFA Developer 将有助于处理大数据。在 Informatica 上支持所有最新的 Hadoop 平台功能以及 Informatica BDE 中的序列生成、状态映射、会话、查找转换等传统 RDBMS 功能存在挑战。
- Informatica MDM 不支持 Hadoop。
如果价格是决策的标准,请选择 Sqoop。如果你想利用切换Hadoop平台工具的灵活性,使用Sqoop(Sqoop项目也在考虑迁移到Spark)。
如果您出于某种原因依赖于 Informatica,请选择 Informatica。但大多数 Informatica 开发人员希望转向 Hadoop 技术。
尽管这是一年前提出的问题,分享 Informatica 中的新功能
Informatica BDM 版本 10.1 支持 Sqoop 连接,即您可以使用 Sqoop 从 RDBMS 读取数据并将其加载到 Hadoop/Hive
此外,BDM 10.2 版中还有许多新功能,尤其是开发人员工具中的参数化支持和动态映射。
工具与手工编码总是存在的。
Informatica 工具提供更易于维护的企业级解决方案。
BDM 10.1.1 支持带有 spark 引擎的 sqoop。此版本支持 Spark 2.0.1,因此性能非常好。
BDM 10.2 刚刚发布,具有早期版本中缺少的状态变量支持等新功能。
SQOOP 必须用于数据交换。您有很多选项可以使您获得最佳性能。此外,如果您尝试在 RDBMS(Teradata / Oracle) <-> Informatica <-> Hadoop 集群之间交换数据,则首先需要将数据传送到 Informatica Server,这可能涉及额外的 I/O.
如果必须在hive中进行数据处理,必须使用Informatica BDE。
我可以选择使用 Sqoop 或 Informatica 大数据版将数据源导入 HDFS。源系统是 Tearadata、Oracle。
我想知道哪个更好以及背后的原因。
注意: 我当前的实用程序能够使用 sqoop 将数据拉入 HDFS ,创建 Hive staging table 并存档外部 table.
Informatica 是组织中使用的 ETL 工具。
问候 桑吉布
Sqoop
- Sqoop 能够从 Oracle/Teradata. 执行完全加载和增量加载
- Sqoop 从源系统并行复制数据。
- Sqoop 脚本可以由 Oozie 自定义生成和调度。
- 适用于任何规模集群的开源解决方案。无许可费用。
Informatica
- ETL 行业中用于管理映射的最佳界面。
- 不提供并行复制选项。提供并行处理的 Hive 模式。基本上将转换转换为 Hive 查询以执行。还支持下推生成MR代码。
- 每个节点的许可成本。如果你计划 500 个 Hadoop 节点用于未来的数据存储,那么当你扩展集群时,你需要支付 10 倍于 50 个节点集群的费用。
- Informatica BDE 是市场上相对较新的产品。 INFA Developer 将有助于处理大数据。在 Informatica 上支持所有最新的 Hadoop 平台功能以及 Informatica BDE 中的序列生成、状态映射、会话、查找转换等传统 RDBMS 功能存在挑战。
- Informatica MDM 不支持 Hadoop。
如果价格是决策的标准,请选择 Sqoop。如果你想利用切换Hadoop平台工具的灵活性,使用Sqoop(Sqoop项目也在考虑迁移到Spark)。 如果您出于某种原因依赖于 Informatica,请选择 Informatica。但大多数 Informatica 开发人员希望转向 Hadoop 技术。
尽管这是一年前提出的问题,分享 Informatica 中的新功能
Informatica BDM 版本 10.1 支持 Sqoop 连接,即您可以使用 Sqoop 从 RDBMS 读取数据并将其加载到 Hadoop/Hive
此外,BDM 10.2 版中还有许多新功能,尤其是开发人员工具中的参数化支持和动态映射。
工具与手工编码总是存在的。 Informatica 工具提供更易于维护的企业级解决方案。
BDM 10.1.1 支持带有 spark 引擎的 sqoop。此版本支持 Spark 2.0.1,因此性能非常好。 BDM 10.2 刚刚发布,具有早期版本中缺少的状态变量支持等新功能。
SQOOP 必须用于数据交换。您有很多选项可以使您获得最佳性能。此外,如果您尝试在 RDBMS(Teradata / Oracle) <-> Informatica <-> Hadoop 集群之间交换数据,则首先需要将数据传送到 Informatica Server,这可能涉及额外的 I/O.
如果必须在hive中进行数据处理,必须使用Informatica BDE。