有偏见的初始数据集主动学习
Biased initial dataset active learning
选择有偏见的初始(种子)数据集是否会影响使用主动学习构建的机器的训练和准确性?
可能吧。假设种子数据样本存在严重偏差,并且模型没有看到特定集群的任何示例。然后在预测时,该模型可能会预测它们属于其他 class 并以高确定性执行此操作(即它已经严重偏倚)。因此它不会觉得需要查询此类数据实例的标签,也不会学习它们。但是当我们稍后用真实标签测试模型的结果时,它会显示低准确度,因为这些实际上是错误的预测。
话虽如此,我们也可能不希望种子数据集中的训练数据分布 'perfectly uniform',因为如果我们有相当多的异常值或人为错误导致的错误标签或严重偏斜但可能性较小的数据集群可能是不需要的,它会妨碍模型。
一个解决方案可以是 'active cleaning' 此类实例,否则,我们可以允许种子数据有一定程度的故意偏差(可以朝向高密度集群或有影响力的标签或合奏分歧或模型的不确定性)。然后,我们确保在基于模型结果的进一步决策过程中考虑模型中引入的这种偏差。
选择有偏见的初始(种子)数据集是否会影响使用主动学习构建的机器的训练和准确性?
可能吧。假设种子数据样本存在严重偏差,并且模型没有看到特定集群的任何示例。然后在预测时,该模型可能会预测它们属于其他 class 并以高确定性执行此操作(即它已经严重偏倚)。因此它不会觉得需要查询此类数据实例的标签,也不会学习它们。但是当我们稍后用真实标签测试模型的结果时,它会显示低准确度,因为这些实际上是错误的预测。
话虽如此,我们也可能不希望种子数据集中的训练数据分布 'perfectly uniform',因为如果我们有相当多的异常值或人为错误导致的错误标签或严重偏斜但可能性较小的数据集群可能是不需要的,它会妨碍模型。
一个解决方案可以是 'active cleaning' 此类实例,否则,我们可以允许种子数据有一定程度的故意偏差(可以朝向高密度集群或有影响力的标签或合奏分歧或模型的不确定性)。然后,我们确保在基于模型结果的进一步决策过程中考虑模型中引入的这种偏差。