使用 Carrot2 DCS 实现增量集群

Implementing incremental clustering using Carrot2 DCS

Carrot2 接受 XML 个输入,这些输入包括 'clusters' 来自它自己对某些其他文档的导出。现在,如果我想实现增量聚类,即引入新文档以及之前的聚类,我也必须在输入中保留旧文档。这使得输入随着我们的进步而线性增长。

有没有办法提取集群以及文档特征来解决这个问题incremental/online聚类问题?

增量聚类目前仅在 Lingo3G 算法中可用(商业 add-on 到 Carrot2)。在 Carrot2 中,目前唯一的选择是 re-clustering 整个放大的文档集。