强制或增强 carrot2 聚类标签中的词

Force or boost words in carrot2 clustering labels

我正在使用 Carrot2 对来自 Solr 的查询结果进行聚类。是否有可能在 Lingo、STC 或 k-means?

中强制(或至少增加)标签中某些词的出现

在 Lingo 中,选项 "Title word boost" 已经可以做到这一点,它可以为文档标题中出现的单词赋予更多权重。这可以扩展到我可以提供的其他词吗?

我认为至少应该可以将所需的单词附加到 "Title word boost" 选项所采用的字符串中,以使单词 boost 起作用,但也许这不是正确的方法。

有什么方法可以做到?

目前API中未公开提升任意词的可能性,因此只能提升标题中包含的词。

执行提升的代码在:

https://github.com/carrot2/carrot2/blob/master/core/carrot2-util-text/src/org/carrot2/text/vsm/TermDocumentMatrixBuilder.java#L159

您可以添加另一个属性,例如,采用 comma-separated 单词列表并提升它们。