为大数据项目选择 Hadoop 解决方案 - 定价选项
Choosing Hadoop solution for Big Data project - Pricing Options
我必须将 Hadoop 用于我的研究工作,我正在决定最好的选择。到目前为止,我最终选择了 Cloudera。我已经下载 quick start VM
并开始学习不同的东西 turorials.
问题是我的系统负担不起 运行 它并且执行速度非常慢,我认为在我向它提供所有数据和 运行 其他服务后它可能会停止工作.
有人建议我使用具有 4 个集群节点的云服务。有人可以通过提供最佳选择和估计价格来帮助我考虑吗? 1 年计划可能足以完成我的研究。
谢谢。
如果您是 linux 用户,只需从此 Cloudera Archives 下载单个组件(如 hdfs、MR1、YARN、Hbase、Hive 等...),而不是加载 Cloudera Quickstart VM .
如果您想尝试 4 节点集群,最简单的选择是使用云。
有很多云提供商。我个人用过 AWS、Google Cloud、Microsoft Azure、IBM SmartCloud。其中,AWS 是最好的开始。
这就像按需付费(使用)。我可以推荐您使用像样的 EC2 机器(4 X m3.large 机器)
类型:m3.large CPU:2 RAM:7.5G 存储空间:1 x 32 SSD 价格:每小时 $0.133 AWS Pricing
如果你打算做一年的research,我推荐你去VPC。
AWS EC2 的缺点:
如果你在 EC2 中启动一台机器,当你重启你的机器时,你的 IP 和主机名将会改变。
在 AWS VPC 中,您的 IP 和主机名将保持不变。
如果您使用 4 台机器 x24x7x 一个月,费用为 389.44 美元。
AWS cost 可以自己计算
据我所知,您有两条路径:
- 在云服务提供商(即亚马逊的 EC2 或
Redhat 的 Openshift。
- 使用 Hadoop 即服务(即 Amazon 的 EMR 或 Microsoft 的 HDInsight)。
第一个路径,在云服务提供商中设置 Hadoop 将要求您成为半胜任的 Hadoop 管理员。如果那是你的目标,那就太好了!但是,您将花费大量时间学习必要的技能和心态才能成为那样的人。我不怀疑那是你的目标。
第二条路径是我在这两条路径中推荐的路径。使用 Hadoop 即服务,您可以更快地启动 运行,但前期和持续(每小时)的成本会更高。您仍然可能会省钱,因为您花在 Hadoop 集群故障排除上的时间会更少,而花更多的时间来做您一开始想做的工作。
我想知道,如果你的数据集甚至可以放在你的笔记本电脑上,你为什么首先使用大数据工具?没错,它们会起作用。然而,大数据至少部分定义为无法在单台机器上处理的数据集和计算问题。
我必须将 Hadoop 用于我的研究工作,我正在决定最好的选择。到目前为止,我最终选择了 Cloudera。我已经下载 quick start VM 并开始学习不同的东西 turorials.
问题是我的系统负担不起 运行 它并且执行速度非常慢,我认为在我向它提供所有数据和 运行 其他服务后它可能会停止工作.
有人建议我使用具有 4 个集群节点的云服务。有人可以通过提供最佳选择和估计价格来帮助我考虑吗? 1 年计划可能足以完成我的研究。
谢谢。
如果您是 linux 用户,只需从此 Cloudera Archives 下载单个组件(如 hdfs、MR1、YARN、Hbase、Hive 等...),而不是加载 Cloudera Quickstart VM .
如果您想尝试 4 节点集群,最简单的选择是使用云。 有很多云提供商。我个人用过 AWS、Google Cloud、Microsoft Azure、IBM SmartCloud。其中,AWS 是最好的开始。 这就像按需付费(使用)。我可以推荐您使用像样的 EC2 机器(4 X m3.large 机器)
类型:m3.large CPU:2 RAM:7.5G 存储空间:1 x 32 SSD 价格:每小时 $0.133 AWS Pricing
如果你打算做一年的research,我推荐你去VPC。
AWS EC2 的缺点: 如果你在 EC2 中启动一台机器,当你重启你的机器时,你的 IP 和主机名将会改变。
在 AWS VPC 中,您的 IP 和主机名将保持不变。
如果您使用 4 台机器 x24x7x 一个月,费用为 389.44 美元。 AWS cost 可以自己计算
据我所知,您有两条路径:
- 在云服务提供商(即亚马逊的 EC2 或 Redhat 的 Openshift。
- 使用 Hadoop 即服务(即 Amazon 的 EMR 或 Microsoft 的 HDInsight)。
第一个路径,在云服务提供商中设置 Hadoop 将要求您成为半胜任的 Hadoop 管理员。如果那是你的目标,那就太好了!但是,您将花费大量时间学习必要的技能和心态才能成为那样的人。我不怀疑那是你的目标。
第二条路径是我在这两条路径中推荐的路径。使用 Hadoop 即服务,您可以更快地启动 运行,但前期和持续(每小时)的成本会更高。您仍然可能会省钱,因为您花在 Hadoop 集群故障排除上的时间会更少,而花更多的时间来做您一开始想做的工作。
我想知道,如果你的数据集甚至可以放在你的笔记本电脑上,你为什么首先使用大数据工具?没错,它们会起作用。然而,大数据至少部分定义为无法在单台机器上处理的数据集和计算问题。