如何在 sklearn 库的 k-means 聚类中使用剪影分数?
How to use silhouette score in k-means clustering from sklearn library?
我想在我的脚本中使用 silhouette 分数,从 sklearn 自动计算 k 均值聚类中的聚类数。
import numpy as np
import pandas as pd
import csv
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
filename = "CSV_BIG.csv"
# Read the CSV file with the Pandas lib.
path_dir = ".\"
dataframe = pd.read_csv(path_dir + filename, encoding = "utf-8", sep = ';' ) # "ISO-8859-1")
df = dataframe.copy(deep=True)
#Use silhouette score
range_n_clusters = list (range(2,10))
print ("Number of clusters from 2 to 9: \n", range_n_clusters)
for n_clusters in range_n_clusters:
clusterer = KMeans (n_clusters=n_clusters).fit(?)
preds = clusterer.predict(?)
centers = clusterer.cluster_centers_
score = silhouette_score (?, preds, metric='euclidean')
print ("For n_clusters = {}, silhouette score is {})".format(n_clusters, score)
有人可以帮我打问号吗?我不明白用什么代替问号。我从一个例子中获取了代码。
注释的部分是之前的版本,这里我做k-means聚类,固定的簇数设置为4。这种方式的代码是正确的,但是在我的项目中我需要自动选择簇数。
我假设您要进行轮廓评分以获得最佳编号。集群。
首先声明一个单独的 KMeans
对象,然后像这样
在您的数据 df
上调用它的 fit_predict
函数
for n_clusters in range_n_clusters:
clusterer = KMeans(n_clusters=n_clusters)
preds = clusterer.fit_predict(df)
centers = clusterer.cluster_centers_
score = silhouette_score(df, preds)
print("For n_clusters = {}, silhouette score is {})".format(n_clusters, score))
请参阅 this official example 以了解更多信息。
那个?是您要应用 K-means 的数据集或数据框。
谢谢。
我想在我的脚本中使用 silhouette 分数,从 sklearn 自动计算 k 均值聚类中的聚类数。
import numpy as np
import pandas as pd
import csv
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
filename = "CSV_BIG.csv"
# Read the CSV file with the Pandas lib.
path_dir = ".\"
dataframe = pd.read_csv(path_dir + filename, encoding = "utf-8", sep = ';' ) # "ISO-8859-1")
df = dataframe.copy(deep=True)
#Use silhouette score
range_n_clusters = list (range(2,10))
print ("Number of clusters from 2 to 9: \n", range_n_clusters)
for n_clusters in range_n_clusters:
clusterer = KMeans (n_clusters=n_clusters).fit(?)
preds = clusterer.predict(?)
centers = clusterer.cluster_centers_
score = silhouette_score (?, preds, metric='euclidean')
print ("For n_clusters = {}, silhouette score is {})".format(n_clusters, score)
有人可以帮我打问号吗?我不明白用什么代替问号。我从一个例子中获取了代码。 注释的部分是之前的版本,这里我做k-means聚类,固定的簇数设置为4。这种方式的代码是正确的,但是在我的项目中我需要自动选择簇数。
我假设您要进行轮廓评分以获得最佳编号。集群。
首先声明一个单独的 KMeans
对象,然后像这样
df
上调用它的 fit_predict
函数
for n_clusters in range_n_clusters:
clusterer = KMeans(n_clusters=n_clusters)
preds = clusterer.fit_predict(df)
centers = clusterer.cluster_centers_
score = silhouette_score(df, preds)
print("For n_clusters = {}, silhouette score is {})".format(n_clusters, score))
请参阅 this official example 以了解更多信息。
那个?是您要应用 K-means 的数据集或数据框。 谢谢。