在 ubuntu 14.0 中安装 hadoop-2.6.0

Question

如何在Ubuntu14.0中安装Hadoop-2.6.0？请任何人告诉安装过程

Answer 1

Hadoop伪节点安装

先决条件：

 1.Installing Java v1.8 
 2.Creating dedicated Hadoop system user. 
 3.Configuring SSH access. 
 4.Disabling Ipv6.

1) Installing Java: Hadoop 是一个用 Java 编写的框架，用于运行大型商品集群上的应用程序硬件。 Hadoop 需要 Java 6 或更高版本才能工作。

第一步：下载jdktar.gz文件linux-64位，解压到“/usr/local”

root@localhost  cd /usr/local
root@localhost  tar xvzf /boss/Downloads/jdk-8u5-linux-x64.tar.gz
root@localhost  cd /usr/local/jdk1.8.0_05

第 2 步：

打开“/etc/profile”文件并根据版本添加以下行为 Java 设置环境使用root用户保存/etc/profile。 'profile' 文件包含的命令应该是运行用于登录 shells

root@localhost sudo vi /etc/profile

--插入JAVA_HOME

JAVA_HOME= /usr/local/jdk1.8.0_05

--在 PATH 变量中只是追加在行尾

PATH=$PATH:$JAVA_HOME/bin

--在导出语句末尾追加JAVA_HOME

export PATH JAVA_HOME

第 3 步：来源 /etc/profile

root@localhost source /etc/profile (or) sudo . /etc/profile

使用“Esc”键保存文件，然后按 :wq!

第 4 步：更新 java 备选方案

默认情况下 OS 会有一个打开的 jdk。通过“java -version”检查。你会被提示“openJDK” 如果您还安装了 openjdk，那么您需要更新 java 替代品：

如果您的系统有多个版本的 Java，请输入以下命令配置您的系统导致的版本终端中的以下命令 window

默认情况下 OS 会有一个打开的 jdk。通过“java -version”检查。您将收到提示“Java HotSpot(TM) 64- 位服务器”

root@localhost   update-alternatives --install "/usr/bin/java" java "/usr/local/jdk1.8.0_25/bin/java" = 1



 root@localhost update-alternatives --config java

--类型选择编号：

 root@localhost  java -version

2) 禁用 IPV6:

IPV6 网络目前不支持 Apache Hadoop。只测试过

并在 IPV4 堆栈上开发。 Hadoop 只需要 IPV4 就可以工作，并且只允许 IPV4

与集群通信的客户端。

现在我们要禁用“sysctl.conf”中的 IPV6 条目

我们需要在etc文件夹中编辑sysctl.conf，打开

 root@localhost vi /etc/sysctl.conf

在文件末尾添加以下行

禁用 ipv6

 net.ipv6.conf.all.disable_ipv6 = 1

 net.ipv6.conf.default.disable_ipv6 = 1

 net.ipv6.conf.lo.disable_ipv6 = 1

使用“Esc”键保存文件，然后按 :wq!

3) 为 Hadoop 创建用户

第 1 步：现在要创建名为“hdfs”的用户和名为“hadoop”的组。

root@localhost adduser hdfs

--为用户“hdfs”设置密码，为简单起见也使用密码“hdfs”

 root@localhost  addgroup hadoop

-- 检查用户和组id

 root@localhost  adduser hdfs hadoop

第 2 步：创建用户后

id hdfs

setfacl -m u:hdfs:rwx /opt

第 3 步：确保所有 Hadoop 安装都应在“hdfs”下完成。

root@localhost # su hdfs

3) SSH 配置：（可选，但如果你忽略它会很痛苦）

Hadoop 需要 SSH 访问权限来管理其节点，即远程机器加上

你的本地机器，如果你想在它上面使用 Hadoop（这就是我们想要的

在这个简短的教程中执行）。因此，对于我们的 Hadoop 单节点设置，我们

需要配置 SSH 访问本地主机

需要创建基于无密码 SSH 密钥生成的身份验证

是为了让master节点可以登录slave节点（而secondary

node) 到 start/stop 他们很容易，没有任何身份验证延迟这有

将在辅助名称节点上设置。

如果跳过此步骤，则Master时必须为所有slave提供密码

通过./start-*.sh 启动进程。如果配置了更多no.of slave as

在/etc/hosts中提到，通过

向所有的奴隶重复上面的第二行

slave1、slave2 等

为用户生成 SSH 密钥。然后启用无密码 SSH 访问

         your local machine with this newly created key.

--系统会要求您输入密码，

 hdfs@localhost # ssh localhost

-- 按 ctrl c

hdfs@localhost# ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

hdfs@localhost# ssh-copy-id -i ~/.ssh/id_rsa.pub localhost

--完成以上两步后，您将免密码连接，

hdfs@localhost# ssh localhost

hdfs@localhost# exit

4) Hadoop 安装：

现在从Apache官方下载Hadoop，最好是稳定的发布 Hadoop 2.6.0 版本并将 Hadoop 包的内容解压到您选择的位置。

我们选择位置为“/opt/”

第 1 步：从官方网站下载最新版本 Hadoop (hadoop-2.6.0) 的 tar.gz 文件。

第 2 步：从该命令中提取（解压）下载的文件到 /opt/hdfs

 hdfs@localhost# cd /opt/

 hdfs@localhost# sudo tar -vxzf hadoop-2.6.0.tar.gz

 hdfs@localhost# cd hadoop-2.6.0

第 3 步：通过 ~/.bashrc 文件创建环境

“bashrc”文件使用一组启动文件来帮助创建环境。每个文件有

特定用途，可能会以不同方式影响登录和交互环境。

中的文件

$HADOOP_HOME/bin 目录通常在整个

中提供全局设置

整个shell

 hdfs@localhost# vi ~/.bashrc

在文件末尾添加以下行

 export JAVA_HOME=/usr/local/jdk1.8.0_05

 export HADOOP_HOME=/opt/hadoop-2.6.0

 export HADOOP_INSTALL=$HADOOP_HOME

 export HADOOP_MAPRED_HOME=$HADOOP_HOME

 export HADOOP_COMMON_HOME=$HADOOP_HOME

 export HADOOP_HDFS_HOME=$HADOOP_HOME

 export YARN_HOME=$HADOOP_HOME

 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

 export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

 export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使用“Esc”键保存文件，然后按 :wq!

第 4 步：获取 ~/.bashrc

 hdfs@localhost# source ~/.bashrc

第五步：修改hadoop环境文件：

Hadoop

 environmental files placed under “/opt/hadoop-2.6.0/” i.e

  $HADOOP_HOME


  Add JAVA_HOME to “libexec/hadoop-config.sh”.


 hdfs@localhost# cd /opt/hadoop-2.6.0

 hdfs@localhost# vi libexec/hadoop-config.sh

添加“JAVA_HOME”

 export JAVA_HOME=/usr/local/jdk1.8.0_25

使用“Esc”键保存文件，然后按 :wq!

第 6 步：

将 JAVA_HOME 添加到 etc/hadoop/hadoop-env.sh。 /opt/hadoop-2.6.0

下

 hdfs@localhost# vi etc/hadoop/hadoop-env.sh

添加“JAVA_HOME”

 export JAVA_HOME=/usr/local/jdk1.8.0_25

使用“Esc”键保存文件，然后按 :wq!

第 7 步：检查 Hadoop 安装

 hdfs@localhost# cd /opt/hadoop-2.6.0

 hdfs@localhost# bin/hadoop version

此时Hadoop安装在你的节点上。

4.1) 创建一个名为 tmp 的文件夹

TMP 将用作其他临时目录的基础（对于名称节点和 data-node ）在本地和 HDFS 中。创建 tmp 文件夹的原因是将所有文件移动到远离所有其他标准 hadoop 的安全位置文件。

 hdfs@localhost# mkdir -p /opt/hadoop-2.6.0/tmp/datanode

 hdfs@localhost# mkdir -p /opt/hadoop-2.6.0/tmp/namenode

4.2) 修改 Hadoop 配置文件

在本节中，我们将配置 Hadoop 存储其

的目录

配置文件，它监听的网络端口等。我们的设置将使用 Hadoop

分布式文件系统，(HDFS)，即使我们只使用一个本地

机器。

在可用的各种hadoop配置文件中添加以下属性在 $HADOOP_CONF_DIR 下，通常在

 $HADOOP_HOME/etc/hadoop/

core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

第一步：修改核心-site.xml

 hdfs@localhost# cd /opt/hadoop-2.6.0/etc/hadoop

 hdfs@localhost# vi core-site.xml

在标签之间粘贴以下内容

 <property>

 <name>fs.default.name</name>

 <value>hdfs://localhost:9000</value>

 </property>

 <property>

 <name>hadoop.tmp.dir</name>

 <value>/opt/hadoop-2.6.0/tmp</value>

 </property>

使用“Esc”键保存文件，然后按 :wq!

第二步：修改hdfs-site.xml

 hdfs@localhost# vi hdfs-site.xml

在标签之间粘贴以下内容

(配置namenode和datanode的路径)

 <property>

 <name>dfs.replication</name>

 <value>1</value>

 </property>

 <property>

 <name>dfs.namenode.name.dir</name>

 <value>/opt/hadoop-2.6.0/tmp/namenode</value>

 <property>

 <name>dfs.datanode.data.dir</name>

 <value>/opt/hadoop-2.6.0/tmp/datanode</value>

 </property>

注意：这里我只有一个节点，所以我们将复制值设置为 1。在多节点设置中，您将

必须根据您拥有的从属节点数量增加复制值。

使用“Esc”键保存文件，然后按 :wq!

第三步：修改mapred-site.xml

将现有的 mapred 模板重命名为 mapred-site.xml

 hdfs@localhost# cp mapred-site.xml.template mapred-site.xml

 hdfs@localhost# vi mapred-site.xml

在标签之间粘贴以下内容

 <property>

 <name>mapreduce.framework.name</name>

 <value>yarn</value>

 </property>

使用“Esc”键保存文件，然后按 :wq!

第四步：修改yarn-site.xml

 root@localhost# vi yarn-site.xml

在标签之间粘贴以下内容

 <property>

 <name>yarn.nodemanager.aux-services</name>

 <value>mapreduce_shuffle</value>

 </property>

 <property>

 <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

 <value>org.apache.hadoop.mapred.ShuffleHandler</value>

 <property>

 <name>yarn.resourcemanager.resource-tracker.address</name>

 <value>localhost:8025</value>

 </property>

 <property>

 <name>yarn.resourcemanager.scheduler.address</name>

 <value>localhost:8030</value>

 <property>

 <name>yarn.resourcemanager.address</name>

 <value>localhost:8050</value>

 </property>

使用“Esc”键保存文件，然后按 :wq!

通过 NameNode 格式化 HDFS 文件系统

启动 Hadoop 安装的第一步是格式化 Hadoop 文件

在我们“集群”的本地文件系统之上实现的系统

仅包括我们的本地机器。我们需要在您第一次设置 Hadoop 时执行此操作

集群。

不要格式化运行ning Hadoop 文件系统，因为您将丢失当前在

中的所有数据

集群（在 HDFS 中）

格式化namenode（它只是初始化由

指定的目录

dfs.name.dir变量），运行以下命令：

 hdfs@localhost# cd $HADOOP_HOME

 hdfs@localhost# bin/hadoop namenode -format

启动 Hadoop 集群

发出以下命令启动HDFS：（启动namenode和datanode）

 hdfs@localhost# sbin/start-dfs.sh

要检查哪些服务已启动，请在我们的 JAVA_HOME

中输入 jps 命令

 hdfs@localhost# jps (or) /usr/local/jdk1.8.0_05/bin/jps

输出：

 21422 Jps

 21154 DataNode

 21070 NameNode

 21322 SecondaryNameNode

启动 YARN：

启动资源管理器和节点管理器

 hdfs@localhost# sbin/start-yarn.sh

要检查哪些服务已启动，请在我们的 JAVA_HOME

中输入 jps 命令

 hdfs@localhost# jps (or) /usr/local/jdk1.8.0_25/bin/jps

输出：

 21563 NodeManager

 21888 Jps

 21154 DataNode

 21070 NameNode

 21322 SecondaryNameNode

 21475 ResourceManager

停止 Hadoop 集群：

要停止 Hadoop 集群和相关服务，请使用以下命令。

停止 DFS 服务

 hdfs@localhost# sbin/stop-yarn.sh

停止 YARN 服务

 hdfs@localhost# sbin/stop-dfs.sh

–----------------------------------------结束- --------------------------

Answer 2

您可以参考this article，其中解释了如何在集群环境中配置Hadoop 2。这里提到了所有必要的步骤。

在 ubuntu 14.0 中安装 hadoop-2.6.0

Install hadoop-2.6.0 in ubuntu 14.0

hadoop2

ubuntu-14.04

--插入JAVA_HOME

--在 PATH 变量中只是追加在行尾

--在导出语句末尾追加JAVA_HOME

禁用 ipv6

id hdfs

setfacl -m u:hdfs:rwx /opt

输出：

输出：