压力属性 -- sklearn.manifold.MDS / Python
Stress attribute -- sklearn.manifold.MDS / Python
我正在使用 scikit-learn 方法 MDS 对某些数据进行降维。我想检查压力值以获得减少的质量。我期望介于 0 - 1 之间。但是,我得到的值超出了这个范围。这是一个最小的例子:
%matplotlib inline
from sklearn.preprocessing import normalize
from sklearn import manifold
from matplotlib import pyplot as plt
from matplotlib.lines import Line2D
import numpy
def similarity_measure(vec1, vec2):
vec1_x = numpy.arctan2(vec1[1], vec1[0])
vec2_x = numpy.arctan2(vec2[1], vec2[0])
vec1_y = numpy.sqrt(numpy.sum(vec1[0] * vec1[0] + vec1[1] * vec1[1]))
vec2_y = numpy.sqrt(numpy.sum(vec2[0] * vec2[0] + vec2[1] * vec2[1]))
dot = numpy.sum(vec1_x * vec2_x + vec1_y * vec2_y)
mag1 = numpy.sqrt(numpy.sum(vec1_x * vec1_x + vec1_y * vec1_y))
mag2 = numpy.sqrt(numpy.sum(vec2_x * vec2_x + vec2_y * vec2_y))
return dot / (mag1 * mag2)
plt.figure(figsize=(15, 15))
delta = numpy.zeros((100, 100))
data_x = numpy.random.randint(0, 100, (100, 100))
data_y = numpy.random.randint(0, 100, (100, 100))
for j in range(100):
for k in range(100):
if j <= k:
dist = similarity_measure((data_x[j].flatten(), data_y[j].flatten()), (data_x[k].flatten(), data_y[k].flatten()))
delta[j, k] = delta[k, j] = dist
delta = 1-((delta+1)/2)
delta /= numpy.max(delta)
mds = manifold.MDS(n_components=2, max_iter=3000, eps=1e-9, random_state=0,
dissimilarity="precomputed", n_jobs=1)
coords = mds.fit(delta).embedding_
print mds.stress_
plt.scatter(coords[:, 0], coords[:, 1], marker='x', s=50, edgecolor='None')
plt.tight_layout()
在我的测试中,它打印了以下内容:
263.412196461
并制作了这张图片:
在不知道最大值的情况下如何分析这个值?或者如何对其进行归一化,使其介于 0 和 1 之间?
谢谢。
这是因为当前 scikit-learn 的实现会计算 returns 原始应力值 (σr) 而您期望的是 Stress-1 (σ1).
前者提供的信息不是很多(它的高值不一定表示不合适),并且传达可靠性的更好方法是计算规范压力,例如。根据 Kruskal (1964, p. 3) 的 Stress-1 或多或少有以下解释:值 0 表示完全适合,0.025 优秀,0.05 良好,0.1 一般和 0.2 差。
我刚刚实现了 Stress-1 和 sent PR. In the meantime one can use version from this branch 的计算,当 normalize 参数设置为 True(默认为False)。
有关更多信息,请参见。 Kruskal(1964,第 8-9 页)或 Borg 和 Groenen(2005,第 41-43 页)。
在搜索 Kruskal Stress 时,我找到了 Ricco Rakotomalala 的 french course。它包含一个代码示例,似乎可以计算出正确的 Kruskal 应力:
import pandas
import numpy
from sklearn import manifold
from sklearn.metrics import euclidean_distances
## Input data format (file.csv) : dissimilarity matrix
# ; A ; B ; C ; D ; E
# A ; 0 ; 0.9 ; 0.8 ; 0.5 ; 0.8
# B ; 0.9 ; 0 ; 0.7 ; 0 ; 1
# C ; 0.8 ; 0.7 ; 0 ; 0.2 ; 0.4
# D ; 0.5 ; 0 ; 0.2 ; 0 ; 0.8
# E ; 0.8 ; 1 ; 0.4 ; 0.8 ; 0
## Load data
data = pandas.read_table("file.csv", ";", header=0, index_col=0)
## MDS
mds = manifold.MDS(n_components=2, random_state=1, dissimilarity="precomputed")
mds.fit(data)
# Coordinates of points in the plan (n_components=2)
points = mds.embedding_
## sklearn Stress
print("sklearn stress :")
print(mds.stress_)
print("")
## Manual calculus of sklearn stress
DE = euclidean_distances(points)
stress = 0.5 * numpy.sum((DE - data.values)**2)
print("Manual calculus of sklearn stress :")
print(stress)
print("")
## Kruskal's stress (or stress formula 1)
stress1 = numpy.sqrt(stress / (0.5 * numpy.sum(data.values**2)))
print("Kruskal's Stress :")
print("[Poor > 0.2 > Fair > 0.1 > Good > 0.05 > Excellent > 0.025 > Perfect > 0.0]")
print(stress1)
print("")
我正在使用 scikit-learn 方法 MDS 对某些数据进行降维。我想检查压力值以获得减少的质量。我期望介于 0 - 1 之间。但是,我得到的值超出了这个范围。这是一个最小的例子:
%matplotlib inline
from sklearn.preprocessing import normalize
from sklearn import manifold
from matplotlib import pyplot as plt
from matplotlib.lines import Line2D
import numpy
def similarity_measure(vec1, vec2):
vec1_x = numpy.arctan2(vec1[1], vec1[0])
vec2_x = numpy.arctan2(vec2[1], vec2[0])
vec1_y = numpy.sqrt(numpy.sum(vec1[0] * vec1[0] + vec1[1] * vec1[1]))
vec2_y = numpy.sqrt(numpy.sum(vec2[0] * vec2[0] + vec2[1] * vec2[1]))
dot = numpy.sum(vec1_x * vec2_x + vec1_y * vec2_y)
mag1 = numpy.sqrt(numpy.sum(vec1_x * vec1_x + vec1_y * vec1_y))
mag2 = numpy.sqrt(numpy.sum(vec2_x * vec2_x + vec2_y * vec2_y))
return dot / (mag1 * mag2)
plt.figure(figsize=(15, 15))
delta = numpy.zeros((100, 100))
data_x = numpy.random.randint(0, 100, (100, 100))
data_y = numpy.random.randint(0, 100, (100, 100))
for j in range(100):
for k in range(100):
if j <= k:
dist = similarity_measure((data_x[j].flatten(), data_y[j].flatten()), (data_x[k].flatten(), data_y[k].flatten()))
delta[j, k] = delta[k, j] = dist
delta = 1-((delta+1)/2)
delta /= numpy.max(delta)
mds = manifold.MDS(n_components=2, max_iter=3000, eps=1e-9, random_state=0,
dissimilarity="precomputed", n_jobs=1)
coords = mds.fit(delta).embedding_
print mds.stress_
plt.scatter(coords[:, 0], coords[:, 1], marker='x', s=50, edgecolor='None')
plt.tight_layout()
在我的测试中,它打印了以下内容:
263.412196461
并制作了这张图片:
在不知道最大值的情况下如何分析这个值?或者如何对其进行归一化,使其介于 0 和 1 之间?
谢谢。
这是因为当前 scikit-learn 的实现会计算 returns 原始应力值 (σr) 而您期望的是 Stress-1 (σ1).
前者提供的信息不是很多(它的高值不一定表示不合适),并且传达可靠性的更好方法是计算规范压力,例如。根据 Kruskal (1964, p. 3) 的 Stress-1 或多或少有以下解释:值 0 表示完全适合,0.025 优秀,0.05 良好,0.1 一般和 0.2 差。
我刚刚实现了 Stress-1 和 sent PR. In the meantime one can use version from this branch 的计算,当 normalize 参数设置为 True(默认为False)。
有关更多信息,请参见。 Kruskal(1964,第 8-9 页)或 Borg 和 Groenen(2005,第 41-43 页)。
在搜索 Kruskal Stress 时,我找到了 Ricco Rakotomalala 的 french course。它包含一个代码示例,似乎可以计算出正确的 Kruskal 应力:
import pandas
import numpy
from sklearn import manifold
from sklearn.metrics import euclidean_distances
## Input data format (file.csv) : dissimilarity matrix
# ; A ; B ; C ; D ; E
# A ; 0 ; 0.9 ; 0.8 ; 0.5 ; 0.8
# B ; 0.9 ; 0 ; 0.7 ; 0 ; 1
# C ; 0.8 ; 0.7 ; 0 ; 0.2 ; 0.4
# D ; 0.5 ; 0 ; 0.2 ; 0 ; 0.8
# E ; 0.8 ; 1 ; 0.4 ; 0.8 ; 0
## Load data
data = pandas.read_table("file.csv", ";", header=0, index_col=0)
## MDS
mds = manifold.MDS(n_components=2, random_state=1, dissimilarity="precomputed")
mds.fit(data)
# Coordinates of points in the plan (n_components=2)
points = mds.embedding_
## sklearn Stress
print("sklearn stress :")
print(mds.stress_)
print("")
## Manual calculus of sklearn stress
DE = euclidean_distances(points)
stress = 0.5 * numpy.sum((DE - data.values)**2)
print("Manual calculus of sklearn stress :")
print(stress)
print("")
## Kruskal's stress (or stress formula 1)
stress1 = numpy.sqrt(stress / (0.5 * numpy.sum(data.values**2)))
print("Kruskal's Stress :")
print("[Poor > 0.2 > Fair > 0.1 > Good > 0.05 > Excellent > 0.025 > Perfect > 0.0]")
print(stress1)
print("")