从 RDBMS 导出为 Hadoop 兼容格式

Export from RDBMS to Hadoop Compatible Format

我需要在不连接两个系统的情况下将大量数据从 Oracle 数据库移动到 Hadoop。是否可以通过 Sqoop 将 Oracle 中的数据直接导出到本地文件系统，而无需导入到 HDFS。我想导出到 ORC，然后通过外部磁盘将文件移动到 Hadoop 集群。

您不能在您的情况下使用 SQOOP。 SQOOP ("SQL to Hadoop") 在 hadoop 中运行，默认情况下使用 JDBC 连接数据库（正如我解释的 in this answer，您可以使用 --direct 选项更改它）。如果hadoop节点无法连接到DB服务器，则无法使用。

ORC 是 Hive 使用的一种非常特殊的格式，如果可能的话，您将需要了解如何使用 hive 库在 hadoop 集群之外创建 ORC 文件。

根据您的限制，我建议使用 DB 的转储功能将 DB 导出到 CSV 文件，压缩文件，然后将其复制到 HDFS。

如果您打算使用 Hive，那么您可以 LOAD 文本文件到 table 配置为使用 ORC 存储数据。