我们是否应该在损失函数中积极使用权重参数
Should we actively use the weight argument in loss functions
大多数当前的机器学习库都有带有权重参数的损失函数,这使我们能够处理不平衡的数据集。但是,是否应该积极利用此功能?如果没有,是否有关于何时使用它的特定指南(例如,如果数据集在一定程度上倾斜)。如果模型足够复杂(由于缺少更好的词,我理解复杂性并不等同于性能),该模型最终是否会学会预测罕见情况?
我有这个问题是因为我正在训练一个数据集不平衡的模型(但不是极端),但是我根据每个class的比例随意调整损失函数中的权重存在于数据集中。
如果您确定您的模型需要概括的现实世界数据同样不平衡,则可以使用损失函数的加权版本。否则,您就是在系统中引入了人为偏见。
使用权重的选择不能仅基于训练、验证或测试期间的模型性能,而必须基于对数据集及其构建方式的仔细审查来做出。
CT 扫描中的肿瘤检测可能有帮助,其中背景和前景的比率通常为 20:1。
大多数当前的机器学习库都有带有权重参数的损失函数,这使我们能够处理不平衡的数据集。但是,是否应该积极利用此功能?如果没有,是否有关于何时使用它的特定指南(例如,如果数据集在一定程度上倾斜)。如果模型足够复杂(由于缺少更好的词,我理解复杂性并不等同于性能),该模型最终是否会学会预测罕见情况?
我有这个问题是因为我正在训练一个数据集不平衡的模型(但不是极端),但是我根据每个class的比例随意调整损失函数中的权重存在于数据集中。
如果您确定您的模型需要概括的现实世界数据同样不平衡,则可以使用损失函数的加权版本。否则,您就是在系统中引入了人为偏见。
使用权重的选择不能仅基于训练、验证或测试期间的模型性能,而必须基于对数据集及其构建方式的仔细审查来做出。
CT 扫描中的肿瘤检测可能有帮助,其中背景和前景的比率通常为 20:1。