数据集中分类特征的大量类别

Large number of categories for categorical features in the dataset

我有一个数据集，总共有 13 个特征，其中 5 个特征是分类特征。现在这些功能分别有 1700、25、65、275 和 3 个不同的类别可用。在应用 ML 算法之前，我将使用可用的编码技术将这些分类特征转换为数字数据。

我正在处理的问题是多类分类。

我的问题是我是否需要大量数据（数十万）才能让我的模型有效地学习每个类别的不同组合？

在处理多class class化问题时，每个目标最好有相同数量的样本class。如果不是，那么它将成为一个不平衡的数据集。

要回答你的问题，特征计数不会像目标那样起关键作用，所以你不需要有大量的数据。

不，您不需要特别大量的数据。

这是一个关于高基数分类特征的常见问题，如果你查找它，你会发现很多信息。

一种方法称为目标编码，其中通过考虑目标的相应值（即标签）对特征进行编码。

例如，参见 scikit-learn 中的 TargetEncoder。