用户应该如何使用 ambari 集群

how users should work with ambari cluster

我的问题很简单,但没有人真正问过。

我们有一个带有 spark storm hbase 和 hdfs(以及其他东西)的 ambari 集群。

我不明白想要使用该集群的用户如何使用它。

例如,用户想要将文件复制到 hdfs,运行 一个 spark-shell 或在 hbase shell 中创建新的 table。 他应该在 运行 对应服务的服务器上获得一个本地帐户吗?他不应该使用第三方机器(例如他自己的笔记本电脑)吗? 如果是这样,应该如何使用 hadoop fs,没有办法像 spark-shell 那样指定服务器 ip。

从用户的角度来看,normal/right/expected 运行 所有这些任务的方法是什么。

谢谢。

查看 Ambari views,尤其是允许浏览 HDFS

Files 视图

从命令行运行描述的任务的预期方式如下。

首先,访问服务器的命令行,该服务器安装了您要使用的服务所需的客户端,例如HDFS、Spark、HBase 等。


在通过 Ambari 配置集群的过程中,可以定义将安装客户端的一台或多台服务器。 Here you can see an example of an Ambari provisioning process step. I decided to install the clients on all servers.

之后,确定哪些服务器安装了所需客户端的一种方法是检查您在 Ambari 中的主机视图。 Here you can find an example of an Ambari hosts view: check the green rectangle to see the installed clients.

在一台或多台服务器上安装客户端后,这些服务器将能够通过命令行使用集群的服务。 需要明确的是,客户端对服务的使用与服务实际所在的服务器的位置无关 运行ning。


其次,确保您符合集群的安全机制。关于 HDFS,这可能会影响您被允许使用哪些用户以及您可以使用它们访问哪些目录。如果您不使用安全机制,例如Kerberos、Ranger 等,您应该能够直接从命令行 运行 您声明的任务。

第三,通过命令行执行任务。

这里有一个简短的例子,说明如何在不考虑安全机制的情况下访问 HDFS:

ssh user@hostxyz # Connect to the server that has the required HDFS client installed
hdfs dfs -ls /tmp # Command to list the contents of the HDFS tmp directory