WEKA 中的分层抽样

Stratified sampling in WEKA

如何使用分层抽样将数据集分成大小分别为原始数据集 75% 和 25% 的训练集和测试集,以便在这些新数据中保持比例 class 大小套。我正在尝试使用 WEKA 来做到这一点。

"RemovePercentage" 过滤器帮助不以分层方式进行,"StratifiedRemoveFolds" 过滤器不使用百分比进行此操作。

如有任何帮助或建议,我将不胜感激。

因此,作为变通方法,我使用 stratifiedRemoveFolds 将数据集分成两部分。在这种情况下,我的折叠数是 2,产生 50%-50% 的数据集。然后,我使用相同的方法将其中一个折叠分成两个,产生原始数据集的 25%-25% 的子集。然后我将 25% 的数据集之一合并到左侧超过 50% 的数据集,产生 75%-25% 的分层拆分 - 这是我的目标。