数据建模：没有唯一性的数据

Data modeling : Data without uniqueness

我有一个用例，其中数据需要转储到数据库中，但没有任何唯一性。说一些随机数据，可以有重复的值，以非常高的速度生成。

现在 Cassandra 具有强制性的分区键约束 table。尽管我可以引入一个 TimeUUID 列，但在检索时问题又来了。这又可以在 Select 子句中使用 ALLOW FILTER 来处理。

我正在寻找更好的方法。任何人都可以建议其他方法。唯一的限制是我只能在 Cassandra DB 中转储数据，文件系统不可用。

您似乎只想存储数据而不知道如何查询数据。使用 Cassandra，您通常需要知道如何在设计数据模型之前查询它。如果要检索完整的数据集，性能会很差。您可能需要考虑使用 hdfs。

如果你真的需要在Cassandra中存储，试着想一个有意义的存储方式。例如，您可以将数据存储在 timebucket 中。尝试调整存储桶的大小以存储大约 1MB 的数据。如果你每分钟产生 1MB 的数据，那么一分钟桶是合适的。您将有一个分区键作为日期的分钟，然后是一个集群列作为 timeUUID，然后是要存储的其余数据。

数据建模：没有唯一性的数据

Data modeling : Data without uniqueness

datastax-java-driver

datastax

cassandra-2.0

cassandra-3.0