数据健康检查工具
Data health check tool
我想对大量数据执行数据健康检查,这些数据可以在 RDBMS 中,也可以在 Amazon S3 等云文件存储中。哪个工具适合执行数据健康检查,它可以给我行数、不匹配给定数据类型验证模式的行、给定时间段的平均量等?
我不想使用 Qubole 或 Databricks 等任何大数据平台,因为会产生额外费用。我发现 Drools 可以执行类似的操作,但它需要将完整数据读入内存并在验证之前与 POJO 关联。如果我不必将完整数据加载到内存中,我们将不胜感激。
我想对大量数据执行数据健康检查,这些数据可以在 RDBMS 中,也可以在 Amazon S3 等云文件存储中。哪个工具适合执行数据健康检查,它可以给我行数、不匹配给定数据类型验证模式的行、给定时间段的平均量等?
我不想使用 Qubole 或 Databricks 等任何大数据平台,因为会产生额外费用。我发现 Drools 可以执行类似的操作,但它需要将完整数据读入内存并在验证之前与 POJO 关联。如果我不必将完整数据加载到内存中,我们将不胜感激。