sklearn.datasets.make_blobs() 生成的各向同性高斯斑点的分布?

Distribution of Isotropic Gaussian Blobs generated by sklearn.datasets.make_blobs()?

谁能解释一下由 sklearn.datasets.make_blobs() 生成的 各向同性高斯斑点 的含义。我没有理解它的意思,只是在 sklearn 文档中发现了这个 Generate isotropic Gaussian blobs for clustering。我也经历过这个 question.

所以,这是我的疑问

from sklearn.datasets import make_blobs
# data set generate
X, y = make_blobs(n_samples = 100000, n_features = 2, centers = 2, random_state = 2, cluster_std = 1.5)

# scatter plot of blobs
plt.scatter(X[:, 0], X[:, 1], c = y, s = 50, cmap = 'RdBu')

# distribution of first feature
sns.histplot(x = X[:, 0], kde = True) 

因为这个特征所遵循的分布近似于正态。

# distribuution of second feature
sns.histplot(x = X[ :, 1], kde = True, color = "green", alpha = 0.2 )

第二个特征的分布是不正常的双峰分布。

# overall distribution of values
sns.histplot(x = X.flatten(), color = "red", kde = True, alpha = .5)

这也不正常!

# Variance Covrariance Matrix of Features
np.cov(X[:, 0], X[:, 1])

输出

array([[ 3.55546911,  4.70526192],
       [ 4.70526192, 19.00023664]])

这里的高斯究竟是什么意思!。这可能是一个愚蠢的问题,所以提前表示歉意。

我只是简单地分享一下。

理解make_blobs()的代码片段在这里make_blobs_notebook