H2o Flow UI:Split Frame 如何适用于多类数据集?

H2o Flow UI: How Split Frame works for multiclass dataset?

我刚刚设置了水流 UI。我有一个带有以下标签的 csv。

Label | Count
0     | 9340
1     | 400
2     | 349

我已经导入并解析了我的文件。在我拆分帧(按 80:20 比率)后,我下载了 2 个 csv 文件来检查标签计数。

但是分裂并没有像我预期的那样分裂。

我希望数据拆分如下:

Class | Expected 0.8 | Actual 0.8 | Expected 0.2 | Actual 0.2
0     | 7472         | 7418       | 1868         | 1882
1     | 320          | 610        | 80           | 159
2     | 279          | 15         | 69           | 5

如何将我的数据拆分为上面我想要的预期值,以便我可以将其用作模型构建的训练和验证框架?

H2O-3 的拆分框架选项并非旨在提供精确拆分。

H2O-3 旨在使用概率拆分方法而不是精确拆分来高效处理大数据。例如,指定 0.75/0.25 的拆分时,H2O-3 将产生 test/train 拆分,预期值为 0.75/0.25,而不是恰好为 0.75/0.25。在小数据集上,与大数据相比,结果拆分的大小与预期值的偏差更大,在大数据上它们将非常接近精确。