分类信息能否改善样本外类别的预测?

Can categorical information improve prediction for out-of-sample categories?

假设我们的记录具有与我们试图预测的目标数字相关的几个特征。所有记录都遵循相同的通用基础模式,RandomForestRegressor 可以很好地学习。现在假设所有记录都添加了分类特征,可以将其编码为附加信息以提高模型的预测能力。到目前为止,还不错。

但是现在假设我们想使用我们的回归器在包括分类特征的数据上训练来预测具有新特征的记录训练数据中未表示的类别。在这种情况下,分类信息是否变得无用(或更糟?)是否应该在没有可用分类信息的情况下重新训练模型以获得最佳泛化性能(因为它之前已经适合不在该数据集中的类别)?或者,是否有一些可能的方法可以了解训练数据中的类别成员资格来提高样本外类别的预测能力?

如果这些集合没有交集,则不应包含该变量。如果你希望在测试数据中看到一些原始值,那么你应该使用它。