使用talend时spark到底需要什么?

What is exactly the need of spark when using talend?

我是 spark 和 talend 的新手。

但是我到处都看到这两个都是ETL工具。我阅读了另一个 Whosebug 答案 here。从另一个答案我了解到 talend 确实使用 spark 进行大数据处理。但是 talend 是否可以在不使用 spark 的情况下像 spark 那样高效地完成所有 ETL 工作?或者它本质上是 spark 的包装器,其中所有发送到 talend 的数据实际上都放在 talend 内部的 spark 中进行处理?

我对此很困惑。有人可以澄清一下吗?

Spark 只是 Talend 支持的框架之一。创建新作业时,可以从下拉列表中选择 Spark。您可以获取更多详细信息 in the docs.

与 Informatica BDM 不同,它有自己的 Blaze 框架用于在 Hadoop(本机)上进行处理,Talend 依赖于其他框架,例如 Map Reduce(Hadoop 可能在底层使用 tez)或 Spark 引擎。所以你可以避免使用 Spark,但这样做意义不大。关键是我们可以期待使用 Talend 的一些生产力,因为它是基于图形的,当有很多领域并且您可能不需要最熟练的员工时,这很方便。

对于 NOSQL,如 HBase,它们提供特定的连接器或者可以使用 Phoenix 路由。 Talend 也有用于 KAFKA 的连接器。