Rapidminer 虚拟编码不匹配
Rapidminer dummy coding mismatch
我正在尝试通过在 trainData 上训练它然后在 testData 上测试来使用神经网络,就像任何人都会做的那样。但是,数据需要将某些标称特征虚拟编码为数字。当我这样做时,它会训练神经网络,但在将其应用于测试数据时失败(我在其上应用完全相同的 transformations/blocks),因为虚拟编码不匹配*。
*错误信息在以下几行:v47=H does not exist in testData
我检查了一下,确实在 v47 中 testData not 的值是 'H',而 trainData 有。因此,我想在 v47 中忽略这个 'H',或者替换它。
有什么方法可以轻松吗?请记住,其他功能也可能会发生这种情况,一项一项地检查所有功能以解决此类问题将非常耗时。
也许还有另一种方法可以解决这个问题?
谢谢!
这类似于
此答案建议结合测试和训练数据,使标称值的所有可能值都出现,然后拆分以再次恢复测试和训练集。可能的附加标称值将保留在两个拆分中。
这可能不适合,因此另一种可能性是在训练示例集上使用 Data to Weights
运算符。然后可以将生成的权重与 Select by Weights
运算符一起使用,以仅保留测试示例集中感兴趣的属性。
我正在尝试通过在 trainData 上训练它然后在 testData 上测试来使用神经网络,就像任何人都会做的那样。但是,数据需要将某些标称特征虚拟编码为数字。当我这样做时,它会训练神经网络,但在将其应用于测试数据时失败(我在其上应用完全相同的 transformations/blocks),因为虚拟编码不匹配*。
*错误信息在以下几行:v47=H does not exist in testData
我检查了一下,确实在 v47 中 testData not 的值是 'H',而 trainData 有。因此,我想在 v47 中忽略这个 'H',或者替换它。
有什么方法可以轻松吗?请记住,其他功能也可能会发生这种情况,一项一项地检查所有功能以解决此类问题将非常耗时。
也许还有另一种方法可以解决这个问题?
谢谢!
这类似于
此答案建议结合测试和训练数据,使标称值的所有可能值都出现,然后拆分以再次恢复测试和训练集。可能的附加标称值将保留在两个拆分中。
这可能不适合,因此另一种可能性是在训练示例集上使用 Data to Weights
运算符。然后可以将生成的权重与 Select by Weights
运算符一起使用,以仅保留测试示例集中感兴趣的属性。