为大数据项目选择 Hadoop 解决方案 - 定价选项

Choosing Hadoop solution for Big Data project - Pricing Options

我必须将 Hadoop 用于我的研究工作,我正在决定最好的选择。到目前为止,我最终选择了 Cloudera。我已经下载 quick start VM 并开始学习不同的东西 turorials.

问题是我的系统负担不起 运行 它并且执行速度非常慢,我认为在我向它提供所有数据和 运行 其他服务后它可能会停止工作.

有人建议我使用具有 4 个集群节点的云服务。有人可以通过提供最佳选择和估计价格来帮助我考虑吗? 1 年计划可能足以完成我的研究。

谢谢。

如果您是 linux 用户,只需从此 Cloudera Archives 下载单个组件(如 hdfs、MR1、YARN、Hbase、Hive 等...),而不是加载 Cloudera Quickstart VM .

如果您想尝试 4 节点集群,最简单的选择是使用云。 有很多云提供商。我个人用过 AWS、Google Cloud、Microsoft Azure、IBM SmartCloud。其中,AWS 是最好的开始。 这就像按需付费(使用)。我可以推荐您使用像样的 EC2 机器(4 X m3.large 机器)

类型:m3.large CPU:2 RAM:7.5G 存储空间:1 x 32 SSD 价格:每小时 $0.133 AWS Pricing

如果你打算做一年的research,我推荐你去VPC。

AWS EC2 的缺点: 如果你在 EC2 中启动一台机器,当你重启你的机器时,你的 IP 和主机名将会改变。

在 AWS VPC 中,您的 IP 和主机名将保持不变。

如果您使用 4 台机器 x24x7x 一个月,费用为 389.44 美元AWS cost 可以自己计算

据我所知,您有两条路径:

  1. 在云服务提供商(即亚马逊的 EC2 或 Redhat 的 Openshift。
  2. 使用 Hadoop 即服务(即 Amazon 的 EMR 或 Microsoft 的 HDInsight)。

第一个路径,在云服务提供商中设置 Hadoop 将要求您成为半胜任的 Hadoop 管理员。如果那是你的目标,那就太好了!但是,您将花费大量时间学习必要的技能和心态才能成为那样的人。我不怀疑那是你的目标。

第二条路径是我在这两条路径中推荐的路径。使用 Hadoop 即服务,您可以更快地启动 运行,但前期和持续(每小时)的成本会更高。您仍然可能会省钱,因为您花在 Hadoop 集群故障排除上的时间会更少,而花更多的时间来做您一开始想做的工作。

我想知道,如果你的数据集甚至可以放在你的笔记本电脑上,你为什么首先使用大数据工具?没错,它们会起作用。然而,大数据至少部分定义为无法在单台机器上处理的数据集和计算问题。