pyspark 中的 K 均值聚类算法:用于定义初始种子的语法
K-means clustering algorithm in pyspark: syntax for defining the initial seed
我正在分析 pyspark 中的 k-means 聚类算法,我对语法有疑问。这是代码的相关部分:
from pyspark.ml.clustering import KMeans
from pyspark.ml.clustering import KMeansModel
import numpy as np
kmeans_modeling = KMeans(k = 5, seed = 0)
model = kmeans_modeling.fit(data.select("parameters"))
seed = 0
是什么意思?当然我们不能在同一个点上用种子初始化所有的簇,否则我们就不会得到不同的簇对吗?
我正在分析 pyspark 中的 k-means 聚类算法,我对语法有疑问。这是代码的相关部分:
from pyspark.ml.clustering import KMeans
from pyspark.ml.clustering import KMeansModel
import numpy as np
kmeans_modeling = KMeans(k = 5, seed = 0)
model = kmeans_modeling.fit(data.select("parameters"))
seed = 0
是什么意思?当然我们不能在同一个点上用种子初始化所有的簇,否则我们就不会得到不同的簇对吗?