数据建模:没有唯一性的数据

Data modeling : Data without uniqueness

我有一个用例,其中数据需要转储到数据库中,但没有任何唯一性。说一些随机数据,可以有重复的值,以非常高的速度生成。

现在 Cassandra 具有强制性的分区键约束 table。 尽管我可以引入一个 TimeUUID 列,但在检索时问题又来了。这又可以在 Select 子句中使用 ALLOW FILTER 来处理。

我正在寻找更好的方法。任何人都可以建议其他方法。唯一的限制是我只能在 Cassandra DB 中转储数据,文件系统不可用。

您似乎只想存储数据而不知道如何查询数据。使用 Cassandra,您通常需要知道如何在设计数据模型之前查询它。如果要检索完整的数据集,性能会很差。您可能需要考虑使用 hdfs。

如果你真的需要在Cassandra中存储,试着想一个有意义的存储方式。例如,您可以将数据存储在 timebucket 中。尝试调整存储桶的大小以存储大约 1MB 的数据。如果你每分钟产生 1MB 的数据,那么一分钟桶是合适的。您将有一个分区键作为日期的分钟,然后是一个集群列作为 timeUUID,然后是要存储的其余数据。