R 中的聚类变量和内存使用

Clustering Variables in R and Memory Usage

我正在尝试使用集群库计算 R 中某些变量的集群。代码是这样的:

d2 <- dist(ant, method = "euclidian")

问题是显示此消息:

Error: cannot allocate vector of size 123.5 Gb

不可能有那么大的内存。我的数据框有超过 180000 行和 12 列。有什么建议吗?

  1. 选择一种不需要需要成对距离矩阵的方法,它总是需要 O(n²)内存... 这样的算法存在几种。

  2. 首先简化您的数据。比如把重复合并成权重,用一个支持权重分的algorithm/implementation

  3. 子样本。如果您有这么多积分,您可能 不需要 需要所有积分。改为使用子样本。