机器学习样本的聚类算法

Clustering algorithms for machine learning sample

我有一个 1830*6800 的矩阵,如下所示:

第1830行是不同的创业公司ID,列是6800个不同的投资人。现在我想找出那些成功筹集到足够资金的公司与那些没有那么幸运获得足够资金的公司之间的相似之处。

我正在考虑使用 k 均值聚类和谱聚类,将聚类数设置为 2 以具有 2 个不同的组(即成功和失败)。但是 k-means 几乎全是 0,这意味着所有行都在同一个簇中。

谁能给我一些想法,如何选择更适合这种情况的算法?它不一定是集群。

我认为您使用的数据不正确。如果有 140,000,000 百万投资者,则矩阵非常稀疏。每列都有数据吗?如果没有,请将其删除。你说你的数据是:

“1 或 0。1 表示成功从其中一位投资者那里获得资金,0 表示失败。”

然后你的绝大多数单元格应该为空,因为我无法想象一家初创公司试图从 6,800 名投资者那里获得资金 - 确保你的数据对于那些积极申请资金的公司只有 0 .

另外,您如何定义成功?投资人多吗?数量?我认为结构化的数据不会为您提供所需的答案。

随机投影在这里可能弊大于利。 而是删除例如所有投资了一家公司的投资者,所有没有投资者离开的公司,重复。

但总而言之,我会说你在这里有一个无望的任务。

集群对您没有帮助。您无法获得成功或失败的集群。您更有可能获得东海岸或西海岸集群;或不同的领域。 如果您有 objective,例如 success/failure

,则聚类是错误的工具

此外,你的数据充满了异常,k-means无法很好地处理它们。这可能就是为什么几乎所有东西都在同一个集群中的原因。

您可以尝试的最佳方法是频繁项集,它将(取决于您如何应用它)识别投资于相同公司的投资者群体,以及倾向于拥有相同投资者的公司群体。