手动计算SVM的决策函数
Calculating decision function of SVM manually
我正在尝试使用 python 库 SKLearn 手动计算 SVC 分类器的 decision_function(而不是使用内置方法)。
我尝试了几种方法,但是,只有当我不缩放我的数据时,我才能让手动计算匹配。
z
是测试数据(已缩放),我认为其他变量不言而喻(另外,如果代码中不明显,我正在使用 rbf 内核)。
以下是我试过的方法:
1 循环方式:
dec_func = 0
for j in range(np.shape(sup_vecs)[0]):
norm2 = np.linalg.norm(sup_vecs[j, :] - z)**2
dec_func = dec_func + dual_coefs[0, j] * np.exp(-gamma*norm2)
dec_func += intercept
2 向量化方法
diff = sup_vecs - z
norm2 = np.sum(np.sqrt(diff*diff), 1)**2
dec_func = dual_coefs.dot(np.exp(-gamma_params*norm2)) + intercept
然而,这些都returns 与decision_function
的值相同。我认为这可能与重新调整我的价值观有关,或者更可能是我一直在看的愚蠢的东西!
如有任何帮助,我们将不胜感激。
所以经过更多的挖掘和摸索之后,我弄明白了。
正如我上面提到的 z
是一个经过缩放的测试数据。为了缩放它,我必须从 preprocessing.StandardScaler() 对象中提取 .mean_
和 .std_
属性(当然是在对我的训练数据调用 .fit() 之后)。
然后我使用这个缩放的 z
作为我的手动计算和内置函数的输入。然而,内置函数是管道的一部分,该管道已经将 StandardScaler 作为管道中的第一个 'pipe',因此 z
被缩放了两次!
因此,当我从管道中删除缩放时,手册会回答 "matched" 内置函数的答案。
顺便说一下,我在引号中说了 "matched",因为我发现我总是不得不翻转我的手动计算的符号以匹配内置版本。目前我不知道为什么会这样。
总而言之,我误解了管道的工作原理。
对于那些感兴趣的人,这里是我的手动方法的最终版本:
diff = sup_vecs - z_scaled
# Looping Method
dec_func_loop = 0
for j in range(np.shape(sup_vecs)[0]):
norm2 = np.linalg.norm(diff[j,:])
dec_func_loop = dec_func_loop + dual_coefs[j] * np.exp(-gamma*(norm2**2))
dec_func_loop = -1 * (dec_func_loop - intercept)
# Vectorized method
norm2 = np.array([np.linalg.norm(diff[n, :]) for n in range(np.shape(sup_vecs)[0])])
dec_func_vec = -1 * (dual_coefs.dot(np.exp(-gamma*(norm2**2))) - intercept)
附录
对于那些有兴趣为多类 SVC 实现手动方法的人,以下 link 会有所帮助:
我正在尝试使用 python 库 SKLearn 手动计算 SVC 分类器的 decision_function(而不是使用内置方法)。
我尝试了几种方法,但是,只有当我不缩放我的数据时,我才能让手动计算匹配。
z
是测试数据(已缩放),我认为其他变量不言而喻(另外,如果代码中不明显,我正在使用 rbf 内核)。
以下是我试过的方法:
1 循环方式:
dec_func = 0
for j in range(np.shape(sup_vecs)[0]):
norm2 = np.linalg.norm(sup_vecs[j, :] - z)**2
dec_func = dec_func + dual_coefs[0, j] * np.exp(-gamma*norm2)
dec_func += intercept
2 向量化方法
diff = sup_vecs - z
norm2 = np.sum(np.sqrt(diff*diff), 1)**2
dec_func = dual_coefs.dot(np.exp(-gamma_params*norm2)) + intercept
然而,这些都returns 与decision_function
的值相同。我认为这可能与重新调整我的价值观有关,或者更可能是我一直在看的愚蠢的东西!
如有任何帮助,我们将不胜感激。
所以经过更多的挖掘和摸索之后,我弄明白了。
正如我上面提到的 z
是一个经过缩放的测试数据。为了缩放它,我必须从 preprocessing.StandardScaler() 对象中提取 .mean_
和 .std_
属性(当然是在对我的训练数据调用 .fit() 之后)。
然后我使用这个缩放的 z
作为我的手动计算和内置函数的输入。然而,内置函数是管道的一部分,该管道已经将 StandardScaler 作为管道中的第一个 'pipe',因此 z
被缩放了两次!
因此,当我从管道中删除缩放时,手册会回答 "matched" 内置函数的答案。
顺便说一下,我在引号中说了 "matched",因为我发现我总是不得不翻转我的手动计算的符号以匹配内置版本。目前我不知道为什么会这样。
总而言之,我误解了管道的工作原理。
对于那些感兴趣的人,这里是我的手动方法的最终版本:
diff = sup_vecs - z_scaled
# Looping Method
dec_func_loop = 0
for j in range(np.shape(sup_vecs)[0]):
norm2 = np.linalg.norm(diff[j,:])
dec_func_loop = dec_func_loop + dual_coefs[j] * np.exp(-gamma*(norm2**2))
dec_func_loop = -1 * (dec_func_loop - intercept)
# Vectorized method
norm2 = np.array([np.linalg.norm(diff[n, :]) for n in range(np.shape(sup_vecs)[0])])
dec_func_vec = -1 * (dual_coefs.dot(np.exp(-gamma*(norm2**2))) - intercept)
附录
对于那些有兴趣为多类 SVC 实现手动方法的人,以下 link 会有所帮助: