Sqoop 中的并发
Concurrency in Sqoop
我已阅读文档,其中出于许多原因建议在 edgenode 上安装 sqoop,并且每个映射器都建立了与源数据库的连接。我的问题是所有 4 个连接都是从 edgenode 建立的还是 sqoop-client in edgenode 只是创建某种驱动程序来监视数据节点连接到数据库时的摄取,获取数据(部分)并在本地拆分它然后放入 HDFS .
Sqoop 是 Map reduce 的包装器,用于执行导入导出操作。
- Mappers 将 运行 在您的集群中,而 sqoop 客户端将 运行 边缘节点。
- 每个映射器都会打开一个到您的数据库的连接。
- 映射器使用哪些行由客户端在提交作业时决定。
边缘节点充当 Hadoop 集群的接口,sqoop import/export 根据通用和特定参数启动 MapReduce 作业。
MapReduce 作业根据给定的 -m 或 --num-mappers 参数运行映射器的数量。
有关详细信息,请参阅以下链接:
http://www.dummies.com/programming/big-data/hadoop/edge-nodes-in-hadoop-clusters/
https://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764013
我已阅读文档,其中出于许多原因建议在 edgenode 上安装 sqoop,并且每个映射器都建立了与源数据库的连接。我的问题是所有 4 个连接都是从 edgenode 建立的还是 sqoop-client in edgenode 只是创建某种驱动程序来监视数据节点连接到数据库时的摄取,获取数据(部分)并在本地拆分它然后放入 HDFS .
Sqoop 是 Map reduce 的包装器,用于执行导入导出操作。
- Mappers 将 运行 在您的集群中,而 sqoop 客户端将 运行 边缘节点。
- 每个映射器都会打开一个到您的数据库的连接。
- 映射器使用哪些行由客户端在提交作业时决定。
边缘节点充当 Hadoop 集群的接口,sqoop import/export 根据通用和特定参数启动 MapReduce 作业。
MapReduce 作业根据给定的 -m 或 --num-mappers 参数运行映射器的数量。
有关详细信息,请参阅以下链接: http://www.dummies.com/programming/big-data/hadoop/edge-nodes-in-hadoop-clusters/
https://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764013