我们可以改装或适应部分聚类算法吗?
Can we refit or fit in in parts clustering algorithms?
- 我想聚类大数据集(超过 1M 条记录)。
- 我想对这个聚类任务使用
dbscan
或hdbscan
算法。
当我尝试使用其中一种算法时,出现内存错误。
- 有没有办法将大数据集分成几部分? (使用 for 循环并每 1000 条记录重新调整一次) ?
- 如果没有,有没有更好的方法在不升级机器内存的情况下对大数据集进行聚类?
如果你数据集中的特征数量不是太多(20-25以下),可以考虑使用BIRCH。这是一种可用于大型数据集的迭代方法。在每次迭代中,它都会构建一棵只有少量数据样本的树,并将每个实例放入集群中。
- 我想聚类大数据集(超过 1M 条记录)。
- 我想对这个聚类任务使用
dbscan
或hdbscan
算法。
当我尝试使用其中一种算法时,出现内存错误。
- 有没有办法将大数据集分成几部分? (使用 for 循环并每 1000 条记录重新调整一次) ?
- 如果没有,有没有更好的方法在不升级机器内存的情况下对大数据集进行聚类?
如果你数据集中的特征数量不是太多(20-25以下),可以考虑使用BIRCH。这是一种可用于大型数据集的迭代方法。在每次迭代中,它都会构建一棵只有少量数据样本的树,并将每个实例放入集群中。