矢量与多个数据类型(字符串、整数、浮点数等)的相似性?

Vector similarity with multiple dtypes (string, int, floats etc.)?

我的数据框中有以下两行:

[1, 1.1, -19, "kuku", "lulu"]
[2.8, 1.1, -20, "kuku", "lilu"]

我想通过比较每个维度(等于?1,否则为 0)来计算它们的相似度并得到以下向量:[0, 1, 0, 1, 0],是否有任何函数接受一个向量并执行这样的“相似度”所有行和计算是什么意思?在我们的例子中,它将是 2/5 = 0.4.

我只想在 NumPy 数组上使用一个简单的 =,将向量转换为 int,将向量的平均值转换为 numpy.mean()

import numpy as np


a = [1, 1.1, -19, "kuku", "lulu"] 
b = [2.8, 1.1, -20, "kuku", "lilu"]


res = (np.array(a) == np.array(b)).astype(int)
print(res)                                                                                                                                             
# [0 1 0 1 0]
v = res.mean()
print(v)
# 0.4

如果您不介意将所有内容计算两次并且您可以负担得起潜在的大型中间临时对象:

import numpy as np


arr = np.array([
    [1, 1.1, -19, "kuku", "lulu"],
    [2.8, 1.1, -20, "kuku", "lilu"],
    [2.8, 1.1, -20, "kuku", "lulu"]])


corr = arr[None, :, :] == arr[:, None, :]
score = corr.mean(-1)
print(score)
# [[1.  0.4 0.6]
#  [0.4 1.  0.8]
#  [0.6 0.8 1. ]]