Sqoop 推测执行
Sqoop speculative execution
我在 Sqoop 中有以下问题?
- 我很好奇我们是否可以为 sqoop import/export 作业设置推测执行 off/on。
- 我们也可以选择在 sqoop import/export 进程中设置 reducer 的数量。根据我的分析,sqoop 不需要任何减速器,但不确定我是否正确。请纠正我这一点。
- 我已经将 sqoop 与 mysql、oracle 以及除上述之外我们还可以使用的其他数据库一起使用。
谢谢
1) 在 sqoop 中,默认情况下推测执行是关闭的,因为如果多个映射器 运行 用于单个任务,我们会在 HDFS 中得到重复的数据。因此,为了避免这种衰退,它被关闭了。
2) sqoop 作业的减速器数量为 0,因为它只是一个作业 运行ning 一个将数据转储到 HDFS 的仅 MAP 作业。我们没有聚合任何东西。
3) 您可以使用 Postgresql、HSQLDB 以及 mysql、oracle。 mysql 和 Postgre 如何支持直接导入。
推测执行默认开启。它可以独立启用或禁用
对于 map 任务和 reduce 任务,在集群范围内或在每个作业的基础上。
[Sqoop 没有减速器][1]:http://i.stack.imgur.com/CH8pb.png
任何 JDBC 兼容的 RDBMS 即 MySQL、oracle、Postgre
我在 Sqoop 中有以下问题?
- 我很好奇我们是否可以为 sqoop import/export 作业设置推测执行 off/on。
- 我们也可以选择在 sqoop import/export 进程中设置 reducer 的数量。根据我的分析,sqoop 不需要任何减速器,但不确定我是否正确。请纠正我这一点。
- 我已经将 sqoop 与 mysql、oracle 以及除上述之外我们还可以使用的其他数据库一起使用。
谢谢
1) 在 sqoop 中,默认情况下推测执行是关闭的,因为如果多个映射器 运行 用于单个任务,我们会在 HDFS 中得到重复的数据。因此,为了避免这种衰退,它被关闭了。
2) sqoop 作业的减速器数量为 0,因为它只是一个作业 运行ning 一个将数据转储到 HDFS 的仅 MAP 作业。我们没有聚合任何东西。
3) 您可以使用 Postgresql、HSQLDB 以及 mysql、oracle。 mysql 和 Postgre 如何支持直接导入。
推测执行默认开启。它可以独立启用或禁用 对于 map 任务和 reduce 任务,在集群范围内或在每个作业的基础上。
[Sqoop 没有减速器][1]:http://i.stack.imgur.com/CH8pb.png
任何 JDBC 兼容的 RDBMS 即 MySQL、oracle、Postgre