Sqoop 中的并发

Concurrency in Sqoop

我已阅读文档，其中出于许多原因建议在 edgenode 上安装 sqoop，并且每个映射器都建立了与源数据库的连接。我的问题是所有 4 个连接都是从 edgenode 建立的还是 sqoop-client in edgenode 只是创建某种驱动程序来监视数据节点连接到数据库时的摄取，获取数据（部分）并在本地拆分它然后放入 HDFS .

Sqoop 是 Map reduce 的包装器，用于执行导入导出操作。

Mappers 将运行在您的集群中，而 sqoop 客户端将运行边缘节点。
每个映射器都会打开一个到您的数据库的连接。
映射器使用哪些行由客户端在提交作业时决定。

边缘节点充当 Hadoop 集群的接口，sqoop import/export 根据通用和特定参数启动 MapReduce 作业。

MapReduce 作业根据给定的 -m 或 --num-mappers 参数运行映射器的数量。

有关详细信息，请参阅以下链接： http://www.dummies.com/programming/big-data/hadoop/edge-nodes-in-hadoop-clusters/

https://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764013

Sqoop 中的并发

Concurrency in Sqoop

hadoop

mapreduce

sqoop