安装hadoop并编写map reduce程序
installing hadoop and writing map reduce program
对于一个主题,我得到了这个作业。
To make a hadoop cluster and write map reduce programs.
我有一台配备 4GB 内存和 i3 处理器的笔记本电脑,我从 cloudera 网站下载了 vmware 映像。但是预配置的虚拟机本身需要 4GB RAM。
作业文本说
install the Hadoop Distribution of Cloudera (http://www.cloudera.com/hadoop/) in Pseudo-Distributed Mode or use the VMWare Image provided by Cloudera to familiarize yourself with Hadoop, especially with the distributed file system HDFS and the implementation of MapReduce programs in Java."
我从cloudera网站下载了vmware镜像,但是预配置的虚拟机本身需要4GB RAM。
我尝试将虚拟机内存大小从 4GB 减少到 1GB,但效果不佳;我的意思是我无法 运行 Cloudera 虚拟机。
我有很多任务要求我做的 mapreduce 和 java 程序。我无法理解其中任何一个。喜欢
- 在多台机器上执行 "grep"。
- 计算分布在 hadoop 集群等多台机器上的文件的词频
我想知道如何设置 hadoop 以便它 运行 在 windows8.1 机器上运行
这样我就可以 运行 这些程序
Cloudera VM 需要 6-8GB 才能正确 运行。
我在大学上 Hadoop 课程时,要求我们为所有小于 8GB 的计算机购买更多 RAM,我们有 i5,但 VM 仍然很慢。
即使只是安装 Hadoop 并 运行单独 在 VM 之外单独运行服务,默认情况下至少需要 4GB。这不包括您的 OS 和其他服务(您的浏览器和 OS 可能已经各自占用了 1GB 空间)。
就 Windows 上实际安装 Hadoop 而言,我不推荐它,但粗略的步骤是
- 安装Java。添加
JAVA_HOME
作为环境变量
- 在您的 windows 机器上安装并 运行 SSH 服务器。确保您可以使用 PuTTy 连接到
localhost:22
,例如
- 然后 使用 Apache 站点下载和配置 Hadoop,而不是其他可能已过时的随机教程。从Single Node开始,然后配置伪分布式。一旦你提取Hadoop下载,添加
HADOOP_PREFIX
和HADOOP_CONF_DIR=%HADOOP_PREFIX%/conf
作为两个环境变量
- doing a "grep" on multiple machines
- Counting word frequency on files
这两个都是文档中给出的例子。不确定您是否需要实际编写该代码。
FWIW,您实际上不需要 运行ning Hadoop 集群来 运行 MapReduce。默认的 Hadoop 配置将从您的单个本地文件系统中读取。此外,您的 VM 无论如何都是一台机器,因此 "running on multiple machines" 的要求没有多大意义。
对于一个主题,我得到了这个作业。
To make a hadoop cluster and write map reduce programs.
我有一台配备 4GB 内存和 i3 处理器的笔记本电脑,我从 cloudera 网站下载了 vmware 映像。但是预配置的虚拟机本身需要 4GB RAM。
作业文本说
install the Hadoop Distribution of Cloudera (http://www.cloudera.com/hadoop/) in Pseudo-Distributed Mode or use the VMWare Image provided by Cloudera to familiarize yourself with Hadoop, especially with the distributed file system HDFS and the implementation of MapReduce programs in Java."
我从cloudera网站下载了vmware镜像,但是预配置的虚拟机本身需要4GB RAM。
我尝试将虚拟机内存大小从 4GB 减少到 1GB,但效果不佳;我的意思是我无法 运行 Cloudera 虚拟机。
我有很多任务要求我做的 mapreduce 和 java 程序。我无法理解其中任何一个。喜欢
- 在多台机器上执行 "grep"。
- 计算分布在 hadoop 集群等多台机器上的文件的词频
我想知道如何设置 hadoop 以便它 运行 在 windows8.1 机器上运行 这样我就可以 运行 这些程序
Cloudera VM 需要 6-8GB 才能正确 运行。
我在大学上 Hadoop 课程时,要求我们为所有小于 8GB 的计算机购买更多 RAM,我们有 i5,但 VM 仍然很慢。
即使只是安装 Hadoop 并 运行单独 在 VM 之外单独运行服务,默认情况下至少需要 4GB。这不包括您的 OS 和其他服务(您的浏览器和 OS 可能已经各自占用了 1GB 空间)。
就 Windows 上实际安装 Hadoop 而言,我不推荐它,但粗略的步骤是
- 安装Java。添加
JAVA_HOME
作为环境变量 - 在您的 windows 机器上安装并 运行 SSH 服务器。确保您可以使用 PuTTy 连接到
localhost:22
,例如 - 然后 使用 Apache 站点下载和配置 Hadoop,而不是其他可能已过时的随机教程。从Single Node开始,然后配置伪分布式。一旦你提取Hadoop下载,添加
HADOOP_PREFIX
和HADOOP_CONF_DIR=%HADOOP_PREFIX%/conf
作为两个环境变量
- doing a "grep" on multiple machines
- Counting word frequency on files
这两个都是文档中给出的例子。不确定您是否需要实际编写该代码。
FWIW,您实际上不需要 运行ning Hadoop 集群来 运行 MapReduce。默认的 Hadoop 配置将从您的单个本地文件系统中读取。此外,您的 VM 无论如何都是一台机器,因此 "running on multiple machines" 的要求没有多大意义。