您如何使用为加权综合评分中的特征分配权重?

How do you use assign weights to features in a weighted composite score?

我正在尝试为在线市场网站实施新的供应商排名系统。我想做的是根据综合评分从最高到最低对供应商进行排序。目前,我正在考虑使用线性模型来计算分数,有点像

score = w1 * f1 + w2 * f2 + w3 * f3....

其中 f1、f2、.... 是不同的特征(例如平均评论分数、订单取消率、响应率等),而 w1、w2... 是这些特征的相应权重。

我想为每个项目从 0-100 给供应商打分,并根据这个分数对项目进行排序。

我遇到的问题是找到一种方法为每个特征分配最佳权重。有没有一种方法可以分配权重以优化某些东西,比如用户购买的可能性,或者更无形的东西,比如质量? 经过一些谷歌搜索后,我发现一些论文显示使用 PCA 来创建一些复合索引。但是由于我对 PCA 不太熟悉,所以我不确定它是否适合这种情况。

如果有人能在正确的道路上指导我,我将不胜感激。如果我以完全错误的方式解决这个问题,如果有人也能指出这一点,我将不胜感激。

这似乎是你的千篇一律的监督学习问题。根据您是否有足够的标记数据,您可以应用一些简单的训练方法,例如线性回归 (http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) or something more complex like boosting (http://xgboost.readthedocs.io/en/latest/python/python_intro.html)。您的数据的标签可能是用户购买某物的频率,使这成为一个回归问题。