余弦相似度归一化

Cosine Similarity normalization

我正在尝试使用余弦相似度比较两个 13 维向量,但希望所有列 entries/features 具有相同的权重。现在,我有 3 个具有更大值的特征在我的比较结果中似乎权重过高。有什么简单的方法可以标准化不同的特征,使它们具有相似的规模。我在 python.

中这样做

通常的方法是将每个特征 x 重新计算为 x = x - np.mean(x) 这会将您的参考系放在集群的中心,“看得更近一些”。

然后对于每个聚类x = x / sqrt(mean(x**2)),这将归一化特征,这将使点更均匀地分布在特征中所有可能的方向上space。