您如何使用为加权综合评分中的特征分配权重？

Question

我正在尝试为在线市场网站实施新的供应商排名系统。我想做的是根据综合评分从最高到最低对供应商进行排序。目前，我正在考虑使用线性模型来计算分数，有点像

score = w1 * f1 + w2 * f2 + w3 * f3....

其中 f1、f2、.... 是不同的特征（例如平均评论分数、订单取消率、响应率等），而 w1、w2... 是这些特征的相应权重。

我想为每个项目从 0-100 给供应商打分，并根据这个分数对项目进行排序。

我遇到的问题是找到一种方法为每个特征分配最佳权重。有没有一种方法可以分配权重以优化某些东西，比如用户购买的可能性，或者更无形的东西，比如质量？经过一些谷歌搜索后，我发现一些论文显示使用 PCA 来创建一些复合索引。但是由于我对 PCA 不太熟悉，所以我不确定它是否适合这种情况。

如果有人能在正确的道路上指导我，我将不胜感激。如果我以完全错误的方式解决这个问题，如果有人也能指出这一点，我将不胜感激。

Answer 1

这似乎是你的千篇一律的监督学习问题。根据您是否有足够的标记数据，您可以应用一些简单的训练方法，例如线性回归 (http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) or something more complex like boosting (http://xgboost.readthedocs.io/en/latest/python/python_intro.html)。您的数据的标签可能是用户购买某物的频率，使这成为一个回归问题。

How do you use assign weights to features in a weighted composite score?