机器学习中的加权系统程序如何工作?

How does the weighting system procedure in machine learning work?

在 Weka 中,我们可以选择为某些实例分配权重,尤其是当数据集在 类 方面不平衡时。但我不明白的是这个加权系统是如何工作的?

例如:当我们使用朴素贝叶斯或决策树作为数据集的分类算法时,某些实例的权重为 5,是否意味着这些实例被算法考虑了 5 次?

样本权重特定于分类器。没有一个普遍的答案。许多分类器(以及回归器)都有自己使用样本权重的内部方法。对于他们中的许多人来说,这相当于从样本复制的角度来考虑它,但是请记住权重 可以是任意的,正实数 ,因此您可以通过 pi 来加权即使您无法复制样本 pi 次。在朴素贝叶斯的情况下 - 在概率估计器内部使用样本权重对每个样本按比例加权,因此它等同于复制(如果你输入 整数 权重)。对于决策树,它要复杂得多,对于任意方法 - 答案是 model/implementation 具体的。