从 RDBMS 导出为 Hadoop 兼容格式
Export from RDBMS to Hadoop Compatible Format
我需要在不连接两个系统的情况下将大量数据从 Oracle 数据库移动到 Hadoop。是否可以通过 Sqoop 将 Oracle 中的数据直接导出到本地文件系统,而无需导入到 HDFS。我想导出到 ORC,然后通过外部磁盘将文件移动到 Hadoop 集群。
您不能在您的情况下使用 SQOOP。 SQOOP ("SQL to Hadoop") 在 hadoop 中运行,默认情况下使用 JDBC 连接数据库(正如我解释的 in this answer,您可以使用 --direct 选项更改它)。如果hadoop节点无法连接到DB服务器,则无法使用。
ORC 是 Hive 使用的一种非常特殊的格式,如果可能的话,您将需要了解如何使用 hive 库在 hadoop 集群之外创建 ORC 文件。
根据您的限制,我建议使用 DB 的转储功能将 DB 导出到 CSV 文件,压缩文件,然后将其复制到 HDFS。
如果您打算使用 Hive,那么您可以 LOAD 文本文件到 table 配置为使用 ORC 存储数据。
我需要在不连接两个系统的情况下将大量数据从 Oracle 数据库移动到 Hadoop。是否可以通过 Sqoop 将 Oracle 中的数据直接导出到本地文件系统,而无需导入到 HDFS。我想导出到 ORC,然后通过外部磁盘将文件移动到 Hadoop 集群。
您不能在您的情况下使用 SQOOP。 SQOOP ("SQL to Hadoop") 在 hadoop 中运行,默认情况下使用 JDBC 连接数据库(正如我解释的 in this answer,您可以使用 --direct 选项更改它)。如果hadoop节点无法连接到DB服务器,则无法使用。
ORC 是 Hive 使用的一种非常特殊的格式,如果可能的话,您将需要了解如何使用 hive 库在 hadoop 集群之外创建 ORC 文件。
根据您的限制,我建议使用 DB 的转储功能将 DB 导出到 CSV 文件,压缩文件,然后将其复制到 HDFS。
如果您打算使用 Hive,那么您可以 LOAD 文本文件到 table 配置为使用 ORC 存储数据。