R 中的聚类变量和内存使用
Clustering Variables in R and Memory Usage
我正在尝试使用集群库计算 R 中某些变量的集群。代码是这样的:
d2 <- dist(ant, method = "euclidian")
问题是显示此消息:
Error: cannot allocate vector of size 123.5 Gb
不可能有那么大的内存。我的数据框有超过 180000 行和 12 列。有什么建议吗?
选择一种不需要需要成对距离矩阵的方法,它总是需要 O(n²)内存... 这样的算法存在几种。
首先简化您的数据。比如把重复合并成权重,用一个支持权重分的algorithm/implementation
子样本。如果您有这么多积分,您可能 不需要 需要所有积分。改为使用子样本。
我正在尝试使用集群库计算 R 中某些变量的集群。代码是这样的:
d2 <- dist(ant, method = "euclidian")
问题是显示此消息:
Error: cannot allocate vector of size 123.5 Gb
不可能有那么大的内存。我的数据框有超过 180000 行和 12 列。有什么建议吗?
选择一种不需要需要成对距离矩阵的方法,它总是需要 O(n²)内存... 这样的算法存在几种。
首先简化您的数据。比如把重复合并成权重,用一个支持权重分的algorithm/implementation
子样本。如果您有这么多积分,您可能 不需要 需要所有积分。改为使用子样本。