H2o Flow UI:Split Frame 如何适用于多类数据集?
H2o Flow UI: How Split Frame works for multiclass dataset?
我刚刚设置了水流 UI。我有一个带有以下标签的 csv。
Label | Count
0 | 9340
1 | 400
2 | 349
我已经导入并解析了我的文件。在我拆分帧(按 80:20 比率)后,我下载了 2 个 csv 文件来检查标签计数。
但是分裂并没有像我预期的那样分裂。
我希望数据拆分如下:
Class | Expected 0.8 | Actual 0.8 | Expected 0.2 | Actual 0.2
0 | 7472 | 7418 | 1868 | 1882
1 | 320 | 610 | 80 | 159
2 | 279 | 15 | 69 | 5
如何将我的数据拆分为上面我想要的预期值,以便我可以将其用作模型构建的训练和验证框架?
H2O-3 的拆分框架选项并非旨在提供精确拆分。
H2O-3 旨在使用概率拆分方法而不是精确拆分来高效处理大数据。例如,指定 0.75/0.25 的拆分时,H2O-3 将产生 test/train 拆分,预期值为 0.75/0.25,而不是恰好为 0.75/0.25。在小数据集上,与大数据相比,结果拆分的大小与预期值的偏差更大,在大数据上它们将非常接近精确。
我刚刚设置了水流 UI。我有一个带有以下标签的 csv。
Label | Count
0 | 9340
1 | 400
2 | 349
我已经导入并解析了我的文件。在我拆分帧(按 80:20 比率)后,我下载了 2 个 csv 文件来检查标签计数。
但是分裂并没有像我预期的那样分裂。
我希望数据拆分如下:
Class | Expected 0.8 | Actual 0.8 | Expected 0.2 | Actual 0.2
0 | 7472 | 7418 | 1868 | 1882
1 | 320 | 610 | 80 | 159
2 | 279 | 15 | 69 | 5
如何将我的数据拆分为上面我想要的预期值,以便我可以将其用作模型构建的训练和验证框架?
H2O-3 的拆分框架选项并非旨在提供精确拆分。
H2O-3 旨在使用概率拆分方法而不是精确拆分来高效处理大数据。例如,指定 0.75/0.25 的拆分时,H2O-3 将产生 test/train 拆分,预期值为 0.75/0.25,而不是恰好为 0.75/0.25。在小数据集上,与大数据相比,结果拆分的大小与预期值的偏差更大,在大数据上它们将非常接近精确。