如何在没有 Sqoop 的情况下将数据从 RDBMS 移动到 hadoop?

How to move data from RDBMS to hadoop without Sqoop?

我需要在不使用 Sqoop 的情况下将大量数据从 RDBMS 移动到 Hadoop。我有 2200 个表的数据库,使用 Sqoop 将它们导入 hdfs 是一项繁忙的工作,耗费大量时间并且每次都将数据库访问 select 影响性能。我有更多资源可以从 RDBMS 迁移到 hdfs。我用配置单元查询 hdfs 中的文件。有人可以用更有效的方式帮助我吗?

您始终可以使用任何后端代码手动执行此操作:从数据库读取数据并流式写入 HDFS。
然后在您的应用程序配置中,您可以进行任何需要的自定义(线程、超时、数据批处理数量等)。这是相当简单的解决方案。
由于某种我不记得的原因,我们已经尝试过一次。但大多数情况下我们使用 sqoop,这里没有问题。
你也可以做一个数据库的副本(类似的副本),除了你的 sqoop 作业之外,任何外部系统都不会使用它。所以用户选择不会影响性能。