R 中的聚类变量和内存使用

Clustering Variables in R and Memory Usage

我正在尝试使用集群库计算 R 中某些变量的集群。代码是这样的：

d2 <- dist(ant, method = "euclidian")

问题是显示此消息：

Error: cannot allocate vector of size 123.5 Gb

不可能有那么大的内存。我的数据框有超过 180000 行和 12 列。有什么建议吗？

选择一种不需要需要成对距离矩阵的方法，它总是需要 O(n²)内存... 这样的算法存在几种。
首先简化您的数据。比如把重复合并成权重，用一个支持权重分的algorithm/implementation
子样本。如果您有这么多积分，您可能 不需要 需要所有积分。改为使用子样本。