HBase 还是卡桑德拉?
HBase or Cassandra?
在我的 lambda 架构中,我正在争论是使用 HDFS 还是 Cassandra 来存储我的不可变数据。我需要 Cassandra 来处理在线请求等,因此它是技术堆栈的必需部分。现在,如果没有必要,我不想在堆栈中引入新工具 (HDFS)。所以我的问题是,如果我不使用 HDFS 而使用 Cassandra 来托管我的不可变数据,我会丢失什么。
编辑:
我知道 HDFS 是分布式文件系统,而 Cassandra 是 NoSQL DB。尽管如此,两者都支持数据复制,都支持高吞吐量写入。此外,Cassandra 支持低延迟数据检索。那么我说 HDFS 不会为我提供太多提升是对的吗?
HDFS支持不同的文件格式进行存储。例如,序列文件、Avro 和 Parquet 等。以便您可以选择适合您的应用程序需要的文件格式。
另请注意,您可以使用类似 SQL 的查询高效地读取数据。
因此,在 Cassandra 上的 HDFS 中可以使用不同的数据模型来托管数据。
据我了解,您正在尝试阐明 Lambda 架构的服务层。
如果是,您希望将批处理视图和实时视图存储到数据库中。
据我了解,您的批处理层中没有 Hadoop 集群。
而你的批处理视图还没有在 HDFS 中完成。
此时您的架构在 HDFS 之外。
HBase 是一个构建在 Hadoop 文件系统之上的分布式列式数据库。它是一个开源项目,可以水平扩展。
如果您不想要 hadoop 集群,请忽略 HBase。
Cassandra 是分布式 NoSQL 数据库(面向列),工作在 Hadoop 集群和 HDFS 之外。
如果我正确理解您的架构和需求,我认为 Cassandra 最适合您。
此外,您可以从此 link 获得有关 Lambda 架构的快速信息;
http://artofbigdata.blogspot.com.tr/2016/01/lambda-architecture.html
在我的 lambda 架构中,我正在争论是使用 HDFS 还是 Cassandra 来存储我的不可变数据。我需要 Cassandra 来处理在线请求等,因此它是技术堆栈的必需部分。现在,如果没有必要,我不想在堆栈中引入新工具 (HDFS)。所以我的问题是,如果我不使用 HDFS 而使用 Cassandra 来托管我的不可变数据,我会丢失什么。
编辑:
我知道 HDFS 是分布式文件系统,而 Cassandra 是 NoSQL DB。尽管如此,两者都支持数据复制,都支持高吞吐量写入。此外,Cassandra 支持低延迟数据检索。那么我说 HDFS 不会为我提供太多提升是对的吗?
HDFS支持不同的文件格式进行存储。例如,序列文件、Avro 和 Parquet 等。以便您可以选择适合您的应用程序需要的文件格式。
另请注意,您可以使用类似 SQL 的查询高效地读取数据。
因此,在 Cassandra 上的 HDFS 中可以使用不同的数据模型来托管数据。
据我了解,您正在尝试阐明 Lambda 架构的服务层。 如果是,您希望将批处理视图和实时视图存储到数据库中。 据我了解,您的批处理层中没有 Hadoop 集群。 而你的批处理视图还没有在 HDFS 中完成。 此时您的架构在 HDFS 之外。 HBase 是一个构建在 Hadoop 文件系统之上的分布式列式数据库。它是一个开源项目,可以水平扩展。 如果您不想要 hadoop 集群,请忽略 HBase。 Cassandra 是分布式 NoSQL 数据库(面向列),工作在 Hadoop 集群和 HDFS 之外。 如果我正确理解您的架构和需求,我认为 Cassandra 最适合您。
此外,您可以从此 link 获得有关 Lambda 架构的快速信息; http://artofbigdata.blogspot.com.tr/2016/01/lambda-architecture.html