是否可以将 solr 中的子文档集成到 carrot workbench 中?

Is it possible to integrate child documents from solr into carrot workbench?

在我的 solr 数据库中,我有一个如下所示的结构: 代表人名的父文档(字典)。这些父文档还包含嵌套的子文档,其中出现与这些人的名字相匹配的文档(字典的嵌套列表)。

当我尝试以一种有意义的方式对信息进行聚类时,我只能直接对子文档进行聚类,这导致一堆属于这些文本的聚类关键字。

理想情况下,我想根据嵌套子文档的相似性对人(父文档)进行聚类。因此,我不想将文本中的关键词聚集在一起,而是将具有相似内容的人名聚集在一起。

例如如果 Bob、John、Lewis 个人资料都有包含文本“We are highly skilled in Python”的子文档;和 Dan、Maria、Chris 个人资料的子文档包含文本“我们在 Java 方面非常熟练”。我想要一组 (Bob、John、Lewis) 和一组 (Dan、Maria、Chris)。因此,当我们点击第一个集群时,我们得到结果“We are highly skilled in Python”,而对于第二个集群,我们得到结果“we are highly skilled in Java”。

有没有办法在胡萝卜上重现这种结构workbench?

不幸的是没有。这是一个非常具体的场景,我们的目标是保持 Workbench 一个通用工具,而 Solr 是众多文档来源之一。

对于这种父子集群,您需要直接使用 Carrot2 Java 或 REST API:

  1. 从 Solr 中获取子文档,将它们聚类到 Carrot2 中。
  2. 对于每个集群 C:
    • 创建一个与集群 C 具有相同标签的新集群 CC,
    • 对于集群 C 中的每个子文档 D,获取子文档 P 并将父文档放入集群 CC。
    • 将簇 CC 放入父簇集合中。

作为上述过程的结果,您将得到一组包含由文档的子文档的文本内容聚类的父文档的聚类。