数据健康检查工具

Data health check tool

我想对大量数据执行数据健康检查,这些数据可以在 RDBMS 中,也可以在 Amazon S3 等云文件存储中。哪个工具适合执行数据健康检查,它可以给我行数、不匹配给定数据类型验证模式的行、给定时间段的平均量等?

我不想使用 Qubole 或 Databricks 等任何大数据平台,因为会产生额外费用。我发现 Drools 可以执行类似的操作,但它需要将完整数据读入内存并在验证之前与 POJO 关联。如果我不必将完整数据加载到内存中,我们将不胜感激。

您可以通过实现 drools 的 StatelessKieSession 对象来避免在内存中加载完整数据。 StatelessKieSession 仅适用于当前事件,它不维护任何事件的状态,也不在内存中保留对象。阅读更多关于 StatelessKieSession here.

此外,您可以使用 Stateful KieSession 并使用 @expires 声明在指定时间后使事件过期。阅读更多关于 @expires here.