用于预测分析的 Cassandra

Cassandra for predective analysis

我们会定期收集系统统计信息,并每隔一分钟在一列中以 blob (Json) 的形式转储到 Cassandra 中。此 table 只有一个分区,条目不会超过 100K

这个 table 似乎可以转储数据并根据时间戳读取数据。到目前为止我们都很好。

我们计划对系统统计数据进行预测分析,例如每分钟我们用我们自己的逻辑将当前统计数据与系统历史统计数据进行比较(坦率地说,我们还没有完成逻辑)

所以如果我们使用查询

Select statisticsjson,来自 stattable 的时间戳,其中 partitionid = 'stat' 和时间戳 > X

Returns 我们需要的所有 Json。

现在如何分析Json数据的历史,并警告用户系统当前状态处于危险状态,这是分析这个旧[=]的最佳工具25=] 数据 ?

分析存储在 Cassandra 中的数据的一种常见方法是使用 apache Spark 和 spark-cassandra 连接器。这通常意味着在每个 Cassandra 节点上配置一个 Cassandra 服务和一个 Spark-worker。这将允许您 运行 您在 Cassandra 中无法进行的任何类型的分析(无连接、有限聚合等...)。使用 spark,您将能够读取 json 对象,并并行执行您需要的任何转换。

根据您的业务需求,您可能会通过编写一个简单的应用程序从 Cassandra 检索数据(假设它的大小有限),并对这个有限的数据集执行分析来逃脱。