为什么我们需要 Hadoop 发行版?

Why we need Hadoop distributions?

我是 Hadoop 新手。那么,有人可以向我解释为什么我们需要 cloudera 或 Hortonworks 吗?我们可以下载每个 Apache 项目并使用这些库来创建大数据项目,对吗?而且,如果我已经使用 linux OS,我还必须使用 cloudera-quickstart vm ware 吗?提前致谢。

让我们用类似的类比来看一下。

  • 假设您使用的是 OS 'D' 版本 'v1'。在其中您需要不同的库集 - A、B 和 C。
  • A依赖B,C也依赖B,A和C的版本之间,依赖的是不同版本的C。

现在,如果您需要所有三个库,那么确保 use/install 每个库都兼容并且没有冲突就成了您的头疼事。

此外,并不是每个人都是这三个库和底层系统的专家。那么,如果在您自己的工具中使用这些库时需要进行一些优化,会发生什么情况呢?还有您在使用过程中遇到的一些问题呢

这就是这些 "Stack Distributions" 发挥作用的地方。这些供应商中的每一个都提供了一个完整的堆栈,该堆栈作为一个整体进行了测试,并且与打包的不同库兼容,而不仅仅是 hadoop。这让很多人的生活更轻松。此外,根据您与供应商的计划或订阅,您可以获得 support/training 和其他辅助内容。

补充一下,请记住,开源并不一定意味着免费。(请注意,这是我的个人观点)

关于你的问题的另一部分 linux 你需要使用任何 vm ware 图像吗,对于初学者或学习目的,这会让你的生活变得更简单。