余弦相似度归一化
Cosine Similarity normalization
我正在尝试使用余弦相似度比较两个 13 维向量,但希望所有列 entries/features 具有相同的权重。现在,我有 3 个具有更大值的特征在我的比较结果中似乎权重过高。有什么简单的方法可以标准化不同的特征,使它们具有相似的规模。我在 python.
中这样做
通常的方法是将每个特征 x
重新计算为 x = x - np.mean(x)
这会将您的参考系放在集群的中心,“看得更近一些”。
然后对于每个聚类x = x / sqrt(mean(x**2))
,这将归一化特征,这将使点更均匀地分布在特征中所有可能的方向上space。
我正在尝试使用余弦相似度比较两个 13 维向量,但希望所有列 entries/features 具有相同的权重。现在,我有 3 个具有更大值的特征在我的比较结果中似乎权重过高。有什么简单的方法可以标准化不同的特征,使它们具有相似的规模。我在 python.
中这样做通常的方法是将每个特征 x
重新计算为 x = x - np.mean(x)
这会将您的参考系放在集群的中心,“看得更近一些”。
然后对于每个聚类x = x / sqrt(mean(x**2))
,这将归一化特征,这将使点更均匀地分布在特征中所有可能的方向上space。