高基数特征的方差分析

ANOVA for high cardinal features

我有多个高基数分类特征和低基数特征。目标特征是数字的。我可以用下面的代码知道低基数特征和目标变量之间的相关性

F, p = stats.f_oneway(df[df.some_variable=='value_1'].Target,df[df.some_variable=='value_2'].Target)
print(F)

这里上面的特征是低基数的,只有两个不同的值。如果特征具有高基数,例如 400 个不同的值,我如何找到相关性。任何建议和替代想法表示赞赏。感谢您的耐心等待

假设 vals 是一个值列表

df_arr = [df[df.some_variable==val].Target for val in vals]
F, p = stats.f_oneway(*df_arr)