数据库基准测试:Cassandra vs. BigTable vs. Hadoop(s)

DB benchmarks: Cassandra vs. BigTable vs. Hadoop(s)

我正在评估使用 Cassandra、BigTable 或 Hadoop 解决方案的可能性。是否有任何地方对这三者在一组基准测试中的比较和表现进行了最新比较?我可能在五年前找到了一些,但我想在深入研究之前更好地了解这三个数据库——它们的优缺点。

YCSB (Yahoo! Cloud Serving Benchmark) is the standard for performance testing NoSQL databases. This presentation 似乎总结了 YCSB 测试延迟和可扩展性的目标。

除了延迟和可伸缩性之外,我还检查高批处理负载的吞吐量(即完成的总工作量),以及 "online" 类型系统的尾部延迟(当服务器配置充足时)。我所说的尾部延迟是指:在 1%(或 .1%)的请求下,最慢的速度有多快。

Cloud Bigtable put out some YCSB results 首次发布时(仅供参考,我正在开发该产品)。

  1. Hadoop 是一个生态系统,上面有许多类型的数据库 运行。我相信你想比较的是HBase。在我见过的大多数基准测试中,Cassandra 都比较慢,您可以轻松找到用于比较这两者的基准测试。当您谈论 Hadoop 时,您需要了解这是比 Cassandra 或 BigTable 复杂得多的环境。
  2. BigTable 几乎可以吃掉你扔在上面的所有东西,只需支付 google 就可以了。 (看到 200 万 record/second 写入的基准)。
  3. Cassandra 架构基于 DynamoDB(AWS) 和 BigTable 设计。在其设计的工作负载中速度非常快(您可以找到每秒 100 万次写入的许多基准)。
  4. 永远不要相信互联网上的基准测试:)。您必须自己 运行 使用您的示例数据。并非所有数据库都适合所有需求。如果您提供更多有关要对数据库施加的工作负载的信息,这里的人员可以为您提供所需的 database/databases 指导。 (比你列出的 3 个要多得多)。