修改停用词列表

Modifying stop words list

我想调整 carrot2 簇以避免不以介词开头的标签 -- 对于俄语,在语法格(非主格)中看到一个词并且没有介词看起来很奇怪。

集群是使用 Apache Solr 完成的。

示例:

Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).

我尝试了两个独立的东西:

  1. 配置 core/clustering/carrot2/stopwords.ru -- 并从那里删除问题中的介词
  2. 解压 carrot2-mini-3.9。0.jar,从 stopwords.ru 中删除条目并重新装回罐子。
上面的

None 对集群标签有任何影响。还有其他明显的尝试吗?或者,也许,完全改变调整的方法?

谢谢!

从停用词文件中删除介词应该可以解决问题。使用修改后的停用词文件,由于数据的统计,介词仍然可能会丢失——如果 Минске 的某些出现带有 "in" 前缀而其他则没有,算法可能会选择较短的版本(没有介词) 更具有代表性。

core/clustering/carrot2/stopwords.ru 中的标签应优先于 carrot2-mini-3.9.0.jar.

中包含的标签

关于 Lingo 聚类算法,没有直接的方法可以直接影响每个标签的单词数,但您可以尝试增加 phrase label boost and lowering truncated label threshold

聚类算法参数的完整列表在Carrot2 documentation. You can pass parameter overrides as part of Solr results clustering requests