如何增加 Sqoop 作业中的映射器数量
How to increase no of mapper in the Sqoop job
我正在尝试使用 Sqoop 将数据从 S3 加载到 RDS。
我在 70 个不同的文件中有大约 35 GB 的 gzip 文件。
这是我 运行 执行的命令
sqoop export
--connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb
--username user
--password password
--table DnB_WB_UniverseMaster
--export-dir s3://pppp-sukesh/FullFiles/
--fields-terminated-by '|'
--num-mappers 500
--direct
--default-character-set=latin1
dunsnumber
是我的主键
问题是导出非常非常慢,我能看到的映射器数量只有 4 个。
为了加快加载速度,我可以在这里做些什么优化。
我还有 10 m4.large
的 EMR 集群
尝试在 m
参数中只使用一个破折号:-m 20
或 --num-mappers 20
.
我正在尝试使用 Sqoop 将数据从 S3 加载到 RDS。 我在 70 个不同的文件中有大约 35 GB 的 gzip 文件。
这是我 运行 执行的命令
sqoop export
--connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb
--username user
--password password
--table DnB_WB_UniverseMaster
--export-dir s3://pppp-sukesh/FullFiles/
--fields-terminated-by '|'
--num-mappers 500
--direct
--default-character-set=latin1
dunsnumber
是我的主键
问题是导出非常非常慢,我能看到的映射器数量只有 4 个。
为了加快加载速度,我可以在这里做些什么优化。
我还有 10 m4.large
尝试在 m
参数中只使用一个破折号:-m 20
或 --num-mappers 20
.