如何获得 Python 中两个浮点值数据帧之间的百分比相似度?
How to get percentage similarity between two float values dataframe in Python?
这就是我的想象。这是一个示例 table:
A 列
B 列
相似度
5.0
5.0
1.000
3.8
2.3
0.700
1.3
6.7
0.300
2.7
8.5
0.350
2.9
2.9
1.000
我应该使用什么算法来做到这一点?
如果你需要一个任意的相似度函数,它 returns 介于 1 和 0 之间的东西,这很简单,但它会起作用。
df['similarity'] = df['Col A'] / df['Col B']
df.loc[df['similarity'] > 1, 'similarity'] = 1 / df['similarity']
您可以尝试这样的操作:
x = df.max(axis=1)
y = abs(df['Col A']- df['Col B'])
df['Similarity'] = 1-(y/x)
df:
Col A Col B Similarity
0 5.0 5.0 1.000000
1 3.8 2.3 0.605263
2 1.3 6.7 0.194030
3 2.7 8.5 0.317647
4 2.9 2.9 1.000000
这就是我的想象。这是一个示例 table:
A 列 | B 列 | 相似度 |
---|---|---|
5.0 | 5.0 | 1.000 |
3.8 | 2.3 | 0.700 |
1.3 | 6.7 | 0.300 |
2.7 | 8.5 | 0.350 |
2.9 | 2.9 | 1.000 |
我应该使用什么算法来做到这一点?
如果你需要一个任意的相似度函数,它 returns 介于 1 和 0 之间的东西,这很简单,但它会起作用。
df['similarity'] = df['Col A'] / df['Col B']
df.loc[df['similarity'] > 1, 'similarity'] = 1 / df['similarity']
您可以尝试这样的操作:
x = df.max(axis=1)
y = abs(df['Col A']- df['Col B'])
df['Similarity'] = 1-(y/x)
df:
Col A Col B Similarity
0 5.0 5.0 1.000000
1 3.8 2.3 0.605263
2 1.3 6.7 0.194030
3 2.7 8.5 0.317647
4 2.9 2.9 1.000000