数据集中分类特征的大量类别

Large number of categories for categorical features in the dataset

我有一个数据集,总共有 13 个特征,其中 5 个特征是分类特征。现在这些功能分别有 1700、25、65、275 和 3 个不同的类别可用。在应用 ML 算法之前,我将使用可用的编码技术将这些分类特征转换为数字数据。

我正在处理的问题是多类分类。

我的问题是我是否需要大量数据(数十万)才能让我的模型有效地学习每个类别的不同组合?

在处理多class class化问题时,每个目标最好有相同数量的样本class。如果不是,那么它将成为一个不平衡的数据集。

要回答你的问题,特征计数不会像目标那样起关键作用,所以你不需要有大量的数据。

不,您不需要特别大量的数据。

这是一个关于高基数分类特征的常见问题,如果你查找它,你会发现很多信息。

一种方法称为目标编码,其中通过考虑目标的相应值(即标签)对特征进行编码。

例如,参见 scikit-learn 中的 TargetEncoder