kmeans 散点图:绘制每个簇的不同颜色
kmeans scatter plot: plot different colors per cluster
我正在尝试绘制 kmeans 输出的散点图,它将同一主题的句子聚集在一起。我面临的问题是绘制属于每个集群的特定颜色的点。
sentence_list=["Hi how are you", "Good morning" ...] #i have 10 setences
km = KMeans(n_clusters=5, init='k-means++',n_init=10, verbose=1)
#with 5 cluster, i want 5 different colors
km.fit(vectorized)
km.labels_ # [0,1,2,3,3,4,4,5,2,5]
pipeline = Pipeline([('tfidf', TfidfVectorizer())])
X = pipeline.fit_transform(sentence_list).todense()
pca = PCA(n_components=2).fit(X)
data2D = pca.transform(X)
plt.scatter(data2D[:,0], data2D[:,1])
km.fit(X)
centers2D = pca.transform(km.cluster_centers_)
plt.hold(True)
labels=np.array([km.labels_])
print labels
我的问题出在 plt.scatter() 的底部代码中;我应该为参数 c 使用什么?
- 当我在代码中使用
c=labels
时,出现此错误:
number in rbg sequence outside 0-1 range
2.When 我改为设置 c= km.labels_
,我收到错误:
ValueError: Color array must be two-dimensional
plt.scatter(centers2D[:,0], centers2D[:,1],
marker='x', s=200, linewidths=3, c=labels)
plt.show()
color=
或 c=
属性 应该是 matplotlib 颜色,如 plot
.
的文档中所述
要将整数标签映射到颜色,只需执行
LABEL_COLOR_MAP = {0 : 'r',
1 : 'k',
....,
}
label_color = [LABEL_COLOR_MAP[l] for l in labels]
plt.scatter(x, y, c=label_color)
如果您不想使用内置的单字符颜色名称,您可以使用其他颜色定义。请参阅有关 matplotlib 颜色的文档。
它应该有效:
from sklearn.cluster import KMeans;
cluster = KMeans(10);
cluster.fit(M);
cluster.labels_;
plt.scatter(M[:,0],M[:,1], c=[matplotlib.cm.spectral(float(i) /10) for i in cluster.labels_]);
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# Scaling the data to normalize
model = KMeans(n_clusters=5).fit(X)
# Visualize it:
plt.figure(figsize=(8, 6))
plt.scatter(data[:,0], data[:,1], c=model.labels_.astype(float))
现在不同的簇有不同的颜色。
我正在尝试绘制 kmeans 输出的散点图,它将同一主题的句子聚集在一起。我面临的问题是绘制属于每个集群的特定颜色的点。
sentence_list=["Hi how are you", "Good morning" ...] #i have 10 setences
km = KMeans(n_clusters=5, init='k-means++',n_init=10, verbose=1)
#with 5 cluster, i want 5 different colors
km.fit(vectorized)
km.labels_ # [0,1,2,3,3,4,4,5,2,5]
pipeline = Pipeline([('tfidf', TfidfVectorizer())])
X = pipeline.fit_transform(sentence_list).todense()
pca = PCA(n_components=2).fit(X)
data2D = pca.transform(X)
plt.scatter(data2D[:,0], data2D[:,1])
km.fit(X)
centers2D = pca.transform(km.cluster_centers_)
plt.hold(True)
labels=np.array([km.labels_])
print labels
我的问题出在 plt.scatter() 的底部代码中;我应该为参数 c 使用什么?
- 当我在代码中使用
c=labels
时,出现此错误:
number in rbg sequence outside 0-1 range
2.When 我改为设置 c= km.labels_
,我收到错误:
ValueError: Color array must be two-dimensional
plt.scatter(centers2D[:,0], centers2D[:,1],
marker='x', s=200, linewidths=3, c=labels)
plt.show()
color=
或 c=
属性 应该是 matplotlib 颜色,如 plot
.
要将整数标签映射到颜色,只需执行
LABEL_COLOR_MAP = {0 : 'r',
1 : 'k',
....,
}
label_color = [LABEL_COLOR_MAP[l] for l in labels]
plt.scatter(x, y, c=label_color)
如果您不想使用内置的单字符颜色名称,您可以使用其他颜色定义。请参阅有关 matplotlib 颜色的文档。
它应该有效:
from sklearn.cluster import KMeans;
cluster = KMeans(10);
cluster.fit(M);
cluster.labels_;
plt.scatter(M[:,0],M[:,1], c=[matplotlib.cm.spectral(float(i) /10) for i in cluster.labels_]);
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# Scaling the data to normalize
model = KMeans(n_clusters=5).fit(X)
# Visualize it:
plt.figure(figsize=(8, 6))
plt.scatter(data[:,0], data[:,1], c=model.labels_.astype(float))
现在不同的簇有不同的颜色。