h2o.deeplearning 训练 RNN 模型的函数
h2o.deeplearning fuction to train ANN models
这两个参数 nfolds
和 train_samples_per_iteration
之间有什么区别?对于确定最佳超参数而言,其中一个比另一个更重要?
另外,在训练模型之前是否需要对训练集和测试集进行缩放?
将响应变量转换为 factor
形式很重要吗?
nfolds
是在你想做交叉验证时指定的。如果您不进行交叉验证而是进行 train/valid/test 数据拆分,那么您可以忽略它。
train_samples_per_iteration
决定评分的频率。默认是让 H2O 决定,这通常是个好主意。仅当您觉得大部分训练时间被浪费在过于频繁地对模型进行评分时,或者在另一个极端,它的评分不够频繁(并且错过了提前停止的机会)时才触摸它。
Also, is it necessary to scale the training and testing sets before training the model?
不,H2O 会 do this by default。
Would it be important to transfer the response variable to a factor form?
是的。如果响应变量是一组类别中的一个,请确保 H2O 已将其识别为一个因素。如果它将其识别为数字类型,它将改为构建回归模型。
(它通常会自动执行正确的操作,但如果您的类别是数字,例如“0”表示否,“1”表示是。)它可能会错过您的意图。)
这两个参数 nfolds
和 train_samples_per_iteration
之间有什么区别?对于确定最佳超参数而言,其中一个比另一个更重要?
另外,在训练模型之前是否需要对训练集和测试集进行缩放?
将响应变量转换为 factor
形式很重要吗?
nfolds
是在你想做交叉验证时指定的。如果您不进行交叉验证而是进行 train/valid/test 数据拆分,那么您可以忽略它。
train_samples_per_iteration
决定评分的频率。默认是让 H2O 决定,这通常是个好主意。仅当您觉得大部分训练时间被浪费在过于频繁地对模型进行评分时,或者在另一个极端,它的评分不够频繁(并且错过了提前停止的机会)时才触摸它。
Also, is it necessary to scale the training and testing sets before training the model?
不,H2O 会 do this by default。
Would it be important to transfer the response variable to a factor form?
是的。如果响应变量是一组类别中的一个,请确保 H2O 已将其识别为一个因素。如果它将其识别为数字类型,它将改为构建回归模型。
(它通常会自动执行正确的操作,但如果您的类别是数字,例如“0”表示否,“1”表示是。)它可能会错过您的意图。)