机器学习模型泛化

Machine Learning model generalisation

我是机器学习的新手,我想提出一个关于模型泛化的问题。就我而言,我要生产一些机械零件,我对输入参数的控制感兴趣,以获得最终零件的某些属性。

更具体地说,我对 8 个参数(例如 P1、P2、...、P8)感兴趣。为了优化所需的零件数量以最大化探索的参数组合,我将问题分为两组。对于第一组片段,我将改变前 4 个参数 (P1 ... P4),而其他参数将保持不变。在第二种情况下,我会做相反的事情(变量 P5 ... P8 和常量 P1 ... P4)。

所以我想知道是否可以制作一个以八个参数作为输入的模型来预测最终零件的属性。我问是因为我没有同时改变所有 8 个变量,我想也许我必须为每组参数做一个模型,并且 2 个不同模型的预测不能相互关联.

提前致谢。

在大多数情况下,拥有两个不同的模型比一个大模型具有更好的准确性。原因是在本地模型中,模型只会查看 4 个特征,并且能够识别其中的模式来进行预测。

但这种特殊方法肯定无法扩展。现在您只有两组数据,但如果它增加并且您有 20 组数据怎么办。您将无法在生产环境中创建和维护 20 个 ML 模型。

最适合您的案例的方法需要进行一些试验。从数据中随机抽取样本并训练 ML 模型。采用一个大模型和两个本地模型并评估它们的性能。不仅是准确性,还有他们的 F1 分数、AUC-PR 和 ROC 曲线,以找出最适合你的方法。如果您没有看到性能出现重大下降,那么整个数据集的一个大模型将是更好的选择。如果您知道您的数据将始终分为这两组并且您不关心可伸缩性,那么请使用两个本地模型。