消除用户评分中的偏见
Removing bias in user ratings
我有一个包含用户对图像评分的数据集。我正在使用均值-标准差标准化来标准化评级,以消除由于用户特定偏好而导致的数据集中的偏差。这是处理偏见的正确方法还是有任何其他方法可以消除用户评分中的偏见。
这在几点上肯定是错误的:
- 如果你'normalise'以这种方式输入标准偏差,你的意思是"low variability doesn't matter much, only the outliers really count"——因为异常值本身的偏差会大于标准偏差...
- 您处理的是 'votes' 的用户满意度,而不是 'measurements'。偏见,顾名思义是关于满意度的信息——你把它扔掉了。 IE。 150 年前人们习惯于发现 "No dogs, no Irish" 的东西是可以接受的,但现在不是那么多了。如果你想预测一家餐厅在访问后可能被认为有多好,你不能仅仅因为人们反对这个标志就打折 0 星票!
当谈到星级评分作为预测某事成为 "enjoyed" 或 "regretted" 的可能性时,您可能需要阅读这篇文章:https://www.evanmiller.org/how-not-to-sort-by-average-rating.html
请注意,链接的文章主要是对 "given past ratings, does the current vote indicate: (a) a continuation of past 'satisfaction', (b) a shifting trend towards increasing 'satisfaction', (c) a shifting trend towards decreasing 'satisfaction'" 根据要授予的星星进行建模感兴趣。
我有一个包含用户对图像评分的数据集。我正在使用均值-标准差标准化来标准化评级,以消除由于用户特定偏好而导致的数据集中的偏差。这是处理偏见的正确方法还是有任何其他方法可以消除用户评分中的偏见。
这在几点上肯定是错误的:
- 如果你'normalise'以这种方式输入标准偏差,你的意思是"low variability doesn't matter much, only the outliers really count"——因为异常值本身的偏差会大于标准偏差...
- 您处理的是 'votes' 的用户满意度,而不是 'measurements'。偏见,顾名思义是关于满意度的信息——你把它扔掉了。 IE。 150 年前人们习惯于发现 "No dogs, no Irish" 的东西是可以接受的,但现在不是那么多了。如果你想预测一家餐厅在访问后可能被认为有多好,你不能仅仅因为人们反对这个标志就打折 0 星票!
当谈到星级评分作为预测某事成为 "enjoyed" 或 "regretted" 的可能性时,您可能需要阅读这篇文章:https://www.evanmiller.org/how-not-to-sort-by-average-rating.html
请注意,链接的文章主要是对 "given past ratings, does the current vote indicate: (a) a continuation of past 'satisfaction', (b) a shifting trend towards increasing 'satisfaction', (c) a shifting trend towards decreasing 'satisfaction'" 根据要授予的星星进行建模感兴趣。