在基于内容的推荐系统中,如何判断per-user而不是per-rating?
In a content-based recommender systems, how to judge per-user rather than per-rating?
我正在学习 Coursera 上 Andrew Ng 课程中的推荐系统,这个问题突然出现在我的脑海中。
在课程中,Andrew 会像 Netflix 一样推荐电影。
我们有一个 output 矩阵 Y
各种电影的评分,其中每个单元格 Y(i,j)
是用户 j
对电影 [=13] 的评分=].如果用户还没有评价,Y(i,j)=?
假设我们正在进行线性回归,我们进行了以下最小化 objective:
我的问题是,这不是按评分计算的吗?与此一样,所有评级都是平等的。所以如果有人给 100 部电影打分,他对算法的影响比只给 10 部电影打分的人更大。
我想知道是否可以在每个用户的基础上进行判断,即所有用户都是平等的。
绝对可以使用 weight = 1/ratings_for_user[u]
或 weight = 1/sqrt(ratings_for_user[u])
将权重应用于损失函数。其中 ratings_per_user[u]
是在您的特定样本中给出评分的用户的评分数。这是否是个好主意是另一个问题。
要回答这个问题,我首先要问这个问题:这对您真正要解决的问题是否更有意义?如果是,作为第二个问题:你构建的模型是否运行良好?它的交叉验证得分高吗?
我正在学习 Coursera 上 Andrew Ng 课程中的推荐系统,这个问题突然出现在我的脑海中。
在课程中,Andrew 会像 Netflix 一样推荐电影。
我们有一个 output 矩阵 Y
各种电影的评分,其中每个单元格 Y(i,j)
是用户 j
对电影 [=13] 的评分=].如果用户还没有评价,Y(i,j)=?
假设我们正在进行线性回归,我们进行了以下最小化 objective:
我的问题是,这不是按评分计算的吗?与此一样,所有评级都是平等的。所以如果有人给 100 部电影打分,他对算法的影响比只给 10 部电影打分的人更大。
我想知道是否可以在每个用户的基础上进行判断,即所有用户都是平等的。
绝对可以使用 weight = 1/ratings_for_user[u]
或 weight = 1/sqrt(ratings_for_user[u])
将权重应用于损失函数。其中 ratings_per_user[u]
是在您的特定样本中给出评分的用户的评分数。这是否是个好主意是另一个问题。
要回答这个问题,我首先要问这个问题:这对您真正要解决的问题是否更有意义?如果是,作为第二个问题:你构建的模型是否运行良好?它的交叉验证得分高吗?