如何增加 Sqoop 作业中的映射器数量

Question

我正在尝试使用 Sqoop 将数据从 S3 加载到 RDS。我在 70 个不同的文件中有大约 35 GB 的 gzip 文件。

这是我运行执行的命令

sqoop export 
 --connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb 
 --username user 
 --password password 
 --table DnB_WB_UniverseMaster 
 --export-dir s3://pppp-sukesh/FullFiles/ 
 --fields-terminated-by  '|' 
 --num-mappers 500 
 --direct 
 --default-character-set=latin1

dunsnumber 是我的主键

问题是导出非常非常慢，我能看到的映射器数量只有 4 个。

为了加快加载速度，我可以在这里做些什么优化。

我还有 10 m4.large

的 EMR 集群

Answer 1

尝试在 m 参数中只使用一个破折号：-m 20 或 --num-mappers 20.

如何增加 Sqoop 作业中的映射器数量

How to increase no of mapper in the Sqoop job

hadoop

amazon-emr

sqoop

sqoop2