如何将数据从 PostgreSQL 导入到 Hadoop?

How to import data from PostgreSQL to Hadoop?

我只是 Hadoop 的初学者,我的一所大学要求我帮助将一些 PostgreSQL 表迁移到 Hadoop。由于我对 PostgreSQL 没有太多经验(尽管我知道数据库),所以我不确定进行此迁移的最佳方式是什么。我的想法之一是将表导出为 gson 数据,然后从 Hadoop 中处理它们,如本例所示:http://www.codeproject.com/Articles/757934/Apache-Hadoop-for-Windows-Platform。有没有更好的方法将数据(表和数据库)从 PostgreSQL 导入到 Hadoop?

Sqoop (http://sqoop.apache.org/) 正是为此而生的工具。仔细阅读文档,sqoop 提供了最好和最简单的数据传输方式。

使用下面的命令。它对我有用。

sqoop import --driver=org.postgresql.Driver --connect jdbc:postgresql://localhost/your_db --用户名you_user --密码your_password --table 员工 --target-dir /sqoop_data -m 1