Sqoop 中的并发

Concurrency in Sqoop

我已阅读文档,其中出于许多原因建议在 edgenode 上安装 sqoop,并且每个映射器都建立了与源数据库的连接。我的问题是所有 4 个连接都是从 edgenode 建立的还是 sqoop-client in edgenode 只是创建某种驱动程序来监视数据节点连接到数据库时的摄取,获取数据(部分)并在本地拆分它然后放入 HDFS .

Sqoop 是 Map reduce 的包装器,用于执行导入导出操作。

  1. Mappers 将 运行 在您的集群中,而 sqoop 客户端将 运行 边缘节点。
  2. 每个映射器都会打开一个到您的数据库的连接。
  3. 映射器使用哪些行由客户端在提交作业时决定。

边缘节点充当 Hadoop 集群的接口,sqoop import/export 根据通用和特定参数启动 MapReduce 作业。

MapReduce 作业根据给定的 -m 或 --num-mappers 参数运行映射器的数量。

有关详细信息,请参阅以下链接: http://www.dummies.com/programming/big-data/hadoop/edge-nodes-in-hadoop-clusters/

https://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764013