使用 Apache Solr 和 Carrot2 进行集群

Clustering with Apache Solr and Carrot2

我对 Apache Solr 和 Carrot2 都很陌生。我正在尝试使用 Solr 索引大量输入文件。最终目标是对文档进行聚类。

我不清楚聚类是用Solr还是用carrot2做的workbench?

有人可以指导我吗？

两种方式都可以。

在一个设置中，Carrot2 Workbench 可以从 Solr（就像从任何其他搜索引擎）获取搜索结果并将它们聚类。这条路线可能是最容易上手的，你只需要提供 URL 到 Solr 服务和字段名称来为集群提供内容。

或者，您可以在 Solr 中配置 search results clustering plugin，这将在您的 Solr 服务器内执行集群，并将搜索结果集群作为 Solr 搜索响应的一部分。

在这两种情况下，集群都应用于文档的存储内容（原始文本），因此除了减少 serialization/deserialization 开销之外，将文档在 Solr 中集群并没有太大的性能优势。

最后，有一个有点过时的文件澄清了这两个Carrot2-Solr integration strategies。