修改停用词列表
Modifying stop words list
我想调整 carrot2 簇以避免不以介词开头的标签 -- 对于俄语,在语法格(非主格)中看到一个词并且没有介词看起来很奇怪。
集群是使用 Apache Solr 完成的。
示例:
Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).
我尝试了两个独立的东西:
- 配置 core/clustering/carrot2/stopwords.ru -- 并从那里删除问题中的介词
- 解压 carrot2-mini-3.9。0.jar,从 stopwords.ru 中删除条目并重新装回罐子。
上面的 None 对集群标签有任何影响。还有其他明显的尝试吗?或者,也许,完全改变调整的方法?
谢谢!
从停用词文件中删除介词应该可以解决问题。使用修改后的停用词文件,由于数据的统计,介词仍然可能会丢失——如果 Минске 的某些出现带有 "in" 前缀而其他则没有,算法可能会选择较短的版本(没有介词) 更具有代表性。
core/clustering/carrot2/stopwords.ru
中的标签应优先于 carrot2-mini-3.9.0.jar.
中包含的标签
关于 Lingo 聚类算法,没有直接的方法可以直接影响每个标签的单词数,但您可以尝试增加 phrase label boost and lowering truncated label threshold。
聚类算法参数的完整列表在Carrot2 documentation. You can pass parameter overrides as part of Solr results clustering requests。
我想调整 carrot2 簇以避免不以介词开头的标签 -- 对于俄语,在语法格(非主格)中看到一个词并且没有介词看起来很奇怪。
集群是使用 Apache Solr 完成的。
示例:
Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).
我尝试了两个独立的东西:
- 配置 core/clustering/carrot2/stopwords.ru -- 并从那里删除问题中的介词
- 解压 carrot2-mini-3.9。0.jar,从 stopwords.ru 中删除条目并重新装回罐子。
None 对集群标签有任何影响。还有其他明显的尝试吗?或者,也许,完全改变调整的方法?
谢谢!
从停用词文件中删除介词应该可以解决问题。使用修改后的停用词文件,由于数据的统计,介词仍然可能会丢失——如果 Минске 的某些出现带有 "in" 前缀而其他则没有,算法可能会选择较短的版本(没有介词) 更具有代表性。
core/clustering/carrot2/stopwords.ru
中的标签应优先于 carrot2-mini-3.9.0.jar.
关于 Lingo 聚类算法,没有直接的方法可以直接影响每个标签的单词数,但您可以尝试增加 phrase label boost and lowering truncated label threshold。
聚类算法参数的完整列表在Carrot2 documentation. You can pass parameter overrides as part of Solr results clustering requests。