随机砍伐森林的超参数调整
Hyper parameter tuning for Random cut forest
我已经习惯了下面的超参数来训练模型。
rcf.set_hyperparameters(
num_samples_per_tree=200,
num_trees=250,
feature_dim=1,
eval_metrics =["accuracy", "precision_recall_fscore"])
有没有选择 num_samples_per_tree 和 num_trees 参数的最佳方法。
num_samples_per_tree 和 num_trees 的最佳数字是多少。
这两个超参数有自然的解释,可以帮助您确定 HPO 的良好起始近似值:
num_samples_per_tree
-- 该值的倒数近似于数据中异常的密度 set/stream。例如,如果您将其设置为 200
,则假设大约 0.5% 的数据是异常的。尝试探索您的数据集以做出有根据的估计。
num_trees
-- RCF 模型中的树越多,分数中的噪音就越少。也就是说,如果更多的树报告输入推理点是异常的,那么该点更有可能是异常的,而不是只有少数树报告的异常。
从输入数据集中采样的点总数等于num_samples_per_tree * num_trees
。你应该确保输入训练集至少是这个大小。
(披露 - 我 helped create SageMaker 随机砍伐森林)
我已经习惯了下面的超参数来训练模型。
rcf.set_hyperparameters(
num_samples_per_tree=200,
num_trees=250,
feature_dim=1,
eval_metrics =["accuracy", "precision_recall_fscore"])
有没有选择 num_samples_per_tree 和 num_trees 参数的最佳方法。
num_samples_per_tree 和 num_trees 的最佳数字是多少。
这两个超参数有自然的解释,可以帮助您确定 HPO 的良好起始近似值:
num_samples_per_tree
-- 该值的倒数近似于数据中异常的密度 set/stream。例如,如果您将其设置为200
,则假设大约 0.5% 的数据是异常的。尝试探索您的数据集以做出有根据的估计。num_trees
-- RCF 模型中的树越多,分数中的噪音就越少。也就是说,如果更多的树报告输入推理点是异常的,那么该点更有可能是异常的,而不是只有少数树报告的异常。
从输入数据集中采样的点总数等于num_samples_per_tree * num_trees
。你应该确保输入训练集至少是这个大小。
(披露 - 我 helped create SageMaker 随机砍伐森林)