寻找大数据中的缺失值

Finding missing values in big data

我有很多表格需要分析。目前正在清理数据,因为它有很多缺失值。在某些情况下,只缺少一个值,而在其他情况下,大约有 200 行。

问题

如何找到应该插入到行中的值?

我的方法

  1. 图形的简单线性外推。

  2. 求值的平均值并将其插入所有缺失值。

  3. 如果缺少 200 个值,则取最后 100 个和接下来的 100 个值的平均值。

虽然我可以想到以上所有方法,但我不确定其效率或如何编写节点来实现这一点。

新的 KNIME missing value node 提供了多种替换缺失值的方法。它可以简单地用平均值替换或在前一个和下一个非缺失值之间进行线性插值。