生产级 Hive 和 Sqoop 配置

Production Level Hive and Sqoop Configuration

我对生产级别的 HIVE 配置有一些疑问。 如果远程设置了 HDFS:

  1. 我必须在哪里安装 Hive 才能 运行 基于 HDFS 中的数据进行 HQL 查询? Hive 需要做哪些配置?

  2. Metastore 数据库位于何处?

  3. 如果我想安装Sqoop,以便它可以从本地RDBMS提取数据到远程HDFS,应该安装在哪里?

Hive 服务器应安装在主节点上,如 HDFS NameNode 和辅助 NameNode(请参阅此示例架构 http://pivotalhd.docs.pivotal.io/docs/01-RawContent/Getting-Started/PHD2_Typical_Cluster_Topology.png)。但是你还需要安装YARN。

Sqoop 通常安装在客户端(边缘)节点上。

如果您使用像 Hortonworks 或 Cloudera 这样的发行版,它们包括一个带有向导的管理器,以简化 Hive、YARN、HBase 等所有服务的部署。