在 Galago 中使用停用词删除索引集合

Indexing collections with stopword removal in Galago

I successfully indexed a collection using Galago. I didn't found any parameter for removing stopwords for indexing. Does galago remove stopwords automatically? If no, how can I pass the stopwords list to Galago and how I can tell Galago to remove stopwords?

Galago 作为一个研究搜索引擎,尽量不做出无法收回的假设:默认情况下,索引是为词干 未词干的术语构建的。

在索引期间,不会删除任何停用词,从而在查询时增加您的负担,但这允许更改或调整训练集上的停用词列表。

如果你想删除停用词,它需要是一个查询时间步骤。如果您考虑一下,这就是任何现代搜索引擎想要的,除非磁盘空间有限 space:如果没有停用词或更复杂的技术,查询 "to be or not to be" 是无法回答的,但是最好编写一些代码来删除停用词,除非它清空查询而不是无条件地删除它们。

Galago 通过 WordLists class.

提供对 "inquery" 停用词列表的访问