Platfora 和 Datameer 的分发
Distribution for Platfora and Datameer
我有兴趣安装 Platfora 和 Datameer 分析工具。我怀疑这两个工具的文档,我们看到现有的 Hadoop 发行版,他们已经给出了兼容性列表,包括 CDH、HDP 和 MapR。
但我想将它们安装在现有的普通 Hadoop 中。 IE。我一个一个下载Apache Hadoop组件安装好Hadoop,准备好集群
这些工具在这种情况下是否有效?
是的,它有效。只要您使用 "latest stabile" Yarn、HDFS 和 Map Reduce 版本,Datameer 就可以正常工作。除此之外的任何东西都无关紧要,因为 Datameer 没有使用 Hive、Oozie 或任何其他组件,而是在应用程序中预先打包了诸如 tez、spark 等东西,并且 运行 它在 Yarn 上对你来说是透明的。截至今天,我们支持 50 个不同版本的 Hadoop。
我显然不能代表 Platflora,但他们并不是真的 运行 Hadoop 上的本地人,而是只是将数据从 Hadoop 拉到他们的内存列式数据库中,运行s 在一个额外集群:
+ 额外的扩展硬件(内存密集型)
+ 仅自 SQL 以来的结构化数据(记住 Hadoop 构建为 NO-SQL)
+ 只有小数据(因为在内存中)
+ 自 SQL 基于
以来,没有像图形分析这样的高级分析
HTH
Stefan(我在 Datameer 工作)
您可以通过选择 Hortonworks 的 HDP 发行版使用普通 Apache Hadoop 安装 Platfora - HDP 发行版的核心是普通 Apache Hadoop。 (我在 Platfora 工作。我们支持许多不同的 Hadoop 发行版,但我们的很多开发实际上是使用普通的 Apache Hadoop 完成的)。
Platfora 不仅将 Hadoop 集群用于输入数据,还通过生成本地 MapReduce 和 Apache Spark 作业来处理原始、大容量、结构化或半结构化输入数据(JSON、XML、日志文件、CSV、Avro、来自 Hive 的数据、其他处理管道和库的输出,应有尽有)。这可以很好地扩展,但是在您的工作流中使用 MapReduce 或 Spark 等更高延迟的框架来应对分析问题中的每一个变化都会给您带来较长的周转时间——这对生产力不利。这就是为什么 Platfora 使用支持低延迟视觉发现前端的分布式、横向扩展内存中查询引擎来访问这些中间结果的原因。这种端到端的方法使得通过交互式(亚秒级)视觉体验可视化和理解跨 PB 数据的模式变得非常容易——类似于 Tableau,但原生于 Hadoop 以及现代多线程的规模和复杂性。结构化数据。
我有兴趣安装 Platfora 和 Datameer 分析工具。我怀疑这两个工具的文档,我们看到现有的 Hadoop 发行版,他们已经给出了兼容性列表,包括 CDH、HDP 和 MapR。 但我想将它们安装在现有的普通 Hadoop 中。 IE。我一个一个下载Apache Hadoop组件安装好Hadoop,准备好集群
这些工具在这种情况下是否有效?
是的,它有效。只要您使用 "latest stabile" Yarn、HDFS 和 Map Reduce 版本,Datameer 就可以正常工作。除此之外的任何东西都无关紧要,因为 Datameer 没有使用 Hive、Oozie 或任何其他组件,而是在应用程序中预先打包了诸如 tez、spark 等东西,并且 运行 它在 Yarn 上对你来说是透明的。截至今天,我们支持 50 个不同版本的 Hadoop。
我显然不能代表 Platflora,但他们并不是真的 运行 Hadoop 上的本地人,而是只是将数据从 Hadoop 拉到他们的内存列式数据库中,运行s 在一个额外集群: + 额外的扩展硬件(内存密集型) + 仅自 SQL 以来的结构化数据(记住 Hadoop 构建为 NO-SQL) + 只有小数据(因为在内存中) + 自 SQL 基于
以来,没有像图形分析这样的高级分析HTH Stefan(我在 Datameer 工作)
您可以通过选择 Hortonworks 的 HDP 发行版使用普通 Apache Hadoop 安装 Platfora - HDP 发行版的核心是普通 Apache Hadoop。 (我在 Platfora 工作。我们支持许多不同的 Hadoop 发行版,但我们的很多开发实际上是使用普通的 Apache Hadoop 完成的)。
Platfora 不仅将 Hadoop 集群用于输入数据,还通过生成本地 MapReduce 和 Apache Spark 作业来处理原始、大容量、结构化或半结构化输入数据(JSON、XML、日志文件、CSV、Avro、来自 Hive 的数据、其他处理管道和库的输出,应有尽有)。这可以很好地扩展,但是在您的工作流中使用 MapReduce 或 Spark 等更高延迟的框架来应对分析问题中的每一个变化都会给您带来较长的周转时间——这对生产力不利。这就是为什么 Platfora 使用支持低延迟视觉发现前端的分布式、横向扩展内存中查询引擎来访问这些中间结果的原因。这种端到端的方法使得通过交互式(亚秒级)视觉体验可视化和理解跨 PB 数据的模式变得非常容易——类似于 Tableau,但原生于 Hadoop 以及现代多线程的规模和复杂性。结构化数据。