如何增加 Sqoop 作业中的映射器数量

How to increase no of mapper in the Sqoop job

我正在尝试使用 Sqoop 将数据从 S3 加载到 RDS。 我在 70 个不同的文件中有大约 35 GB 的 gzip 文件。

这是我 运行 执行的命令

sqoop export 
 --connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb 
 --username user 
 --password password 
 --table DnB_WB_UniverseMaster 
 --export-dir s3://pppp-sukesh/FullFiles/ 
 --fields-terminated-by  '|' 
 --num-mappers 500 
 --direct 
 --default-character-set=latin1

dunsnumber 是我的主键

问题是导出非常非常慢,我能看到的映射器数量只有 4 个。

为了加快加载速度,我可以在这里做些什么优化。

我还有 10 m4.large

的 EMR 集群

尝试在 m 参数中只使用一个破折号:-m 20--num-mappers 20.