Python - 用于分类的最低方差的 bin 大小
Python - bin sizes of lowest variance for classification
我想将特征 'Age' 从连续变量更改为二元分类的年龄范围分类变量,如下所示:
df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])
但是我想以最佳方式拆分它,以便最有效地对数据进行分类。即年龄范围内 类 的方差最小化,同时不会过度拟合。
有没有一个包有一个方法,可以在像这样拆分数据时最小化方差,还是我必须自己写一个?
也许你可以使用 sklearn.cluster
来做到这一点。
我想将特征 'Age' 从连续变量更改为二元分类的年龄范围分类变量,如下所示:
df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])
但是我想以最佳方式拆分它,以便最有效地对数据进行分类。即年龄范围内 类 的方差最小化,同时不会过度拟合。
有没有一个包有一个方法,可以在像这样拆分数据时最小化方差,还是我必须自己写一个?
也许你可以使用 sklearn.cluster
来做到这一点。