使用 Pentaho 计算缺失值的数量
Count number of missing value with Pentaho
我是 Pentaho 的新手,我正在尝试做一个非常简单的任务(我想),但我没有成功。我有一个包含多列和多行的 CSV 文件。我想计算每一行中每一行中缺失值的数量。我试图这样做:
我尝试使用 "group by" 盒子,但我真的不知道它是否合适。
你能给我一些提示或适合我的问题的方框吗
第一张图片是文件中某行的样本(包含69列和2 500 000行),第二张图片是预期结果(每行空值的数量)
可能还有其他方法可以做到这一点,但可以通过 Modified Java Script
步骤来做到这一点。这样的事情将计算 null
的数量。
var fields = getInputRowMeta().getFieldNames();
var nulls = 0;
for (var i = 0; i < fields.length; i++) {
if (row[i] == null) {
nulls += 1;
}
}
然后将nulls
值输出到步骤中的行。
我是 Pentaho 的新手,我正在尝试做一个非常简单的任务(我想),但我没有成功。我有一个包含多列和多行的 CSV 文件。我想计算每一行中每一行中缺失值的数量。我试图这样做:
我尝试使用 "group by" 盒子,但我真的不知道它是否合适。
你能给我一些提示或适合我的问题的方框吗
第一张图片是文件中某行的样本(包含69列和2 500 000行),第二张图片是预期结果(每行空值的数量)
可能还有其他方法可以做到这一点,但可以通过 Modified Java Script
步骤来做到这一点。这样的事情将计算 null
的数量。
var fields = getInputRowMeta().getFieldNames();
var nulls = 0;
for (var i = 0; i < fields.length; i++) {
if (row[i] == null) {
nulls += 1;
}
}
然后将nulls
值输出到步骤中的行。