我如何使用任何分类器对我的数据进行分类,每个数据点由一组浮点值组成?
How can I use any classifier to classify my data with each data point consisting of a set of floating values?
我有这种格式的数据-
[0.266465 0.9203907 1.007363 ... 0.0.09623989 0.39632136]
第一行第一列的值
是第一行第二列的值:
[0.9042176 1.135085 1.2988662 ... 0.0.13614458 0.28000486]
我有 2200 个这样的行,我想训练一个分类器来识别两组值是否相似?
P.S.- 这些是提取的特征向量值。
如果您假设两个提取的特征向量之间的关系是线性的,您可以尝试使用 Pearson correlation:
import numpy as np
from scipy.stats import pearsonr
list1 = np.random.random(100)
list2 = np.random.random(100)
pearsonr(list1, list2)
示例输出是:
(0.0746901299996632, 0.4601843257734832)
其中第一个值指的是相关性 (7%),第二个值指的是其显着性(如果 > 0.05,您接受原假设,即相关性在显着性水平 alfa = 5% 时不显着)。如果向量是相关的,那么它们在某种程度上是相似的。有关方法 here.
的更多信息
另外,我遇到了归一化互相关,它用于识别图片之间的相似性(不是专家,所以宁愿检查this)。
我有这种格式的数据-
[0.266465 0.9203907 1.007363 ... 0.0.09623989 0.39632136]
第一行第一列的值
是第一行第二列的值:
[0.9042176 1.135085 1.2988662 ... 0.0.13614458 0.28000486]
我有 2200 个这样的行,我想训练一个分类器来识别两组值是否相似?
P.S.- 这些是提取的特征向量值。
如果您假设两个提取的特征向量之间的关系是线性的,您可以尝试使用 Pearson correlation:
import numpy as np
from scipy.stats import pearsonr
list1 = np.random.random(100)
list2 = np.random.random(100)
pearsonr(list1, list2)
示例输出是:
(0.0746901299996632, 0.4601843257734832)
其中第一个值指的是相关性 (7%),第二个值指的是其显着性(如果 > 0.05,您接受原假设,即相关性在显着性水平 alfa = 5% 时不显着)。如果向量是相关的,那么它们在某种程度上是相似的。有关方法 here.
的更多信息另外,我遇到了归一化互相关,它用于识别图片之间的相似性(不是专家,所以宁愿检查this)。