hadoop 的分布式替代方案

Distributed alternatives to hadoop

我有一个好奇的问题。

有哪些分布式和可扩展的hadoop替代品。我正在寻找一些分布式文件系统,如 HDFS,它可以用作廉价且有效的存储,并希望在其之上有一个数据处理引擎(batch/real-time)。我知道 Spark 是一个不错的选择。但我想将此系统用作分布式、容错和 scalable.Is 的文件存档,有什么合适的解决方案吗?欢迎提出建议。谢谢:)

这些是 Hadoop 和 Apache Spark 的一些其他替代品。 Cluster Map Reduce、Hydra和Conclusion,都是比较适合做大数据项目的。在这里阅读更多 https://datafloq.com/read/Big-Data-Hadoop-Alternatives/1135

如果您仍在寻找替代方案,这篇 Gigaom 文章可能会有所帮助: https://gigaom.com/2012/07/11/because-hadoop-isnt-perfect-8-ways-to-replace-hdfs/ 默认情况下,Spark 刷新到 HDFS。

由于 HDFS 是 GFS(Google FS) 的开源替代品,您可以使用 GFS 的连接器(Google FS 可通过 Google Cloud Platform Storage 服务获得)。 .. 有一个问题:nodes/clusters 之间的大量数据传输非常昂贵。 Hadoop 不是为实时数据设计的,而是为不太动态的数据设计的。我希望这会有所帮助。

以上链接均为我分享的Gigaom文章。 我希望这会有所帮助。