在 Porter Stemming 算法中,包含 SS -> SS 等身份规则的目的是什么?

In the Porter Stemming algorithm, what is the purpose of including an identity rule such as SS -> SS?

具有将 SS 转换为 SS 的规则的 Porter Stemmer algorithm 有什么意义?

假设规则 SS->SS 不在算法中。然后像 caress 这样的词根本不会被识别,而且算法似乎无法做任何事情来将它缩减为一个词干。但是,对于规则 SS->SS,词干分析器会说:"I recognize the word caress and I reduce it to caress. I'm done"。备选方案是:"I can't do anything"。当然这是虚构的工作,但重要的是它提高了词干分析器的精度。您可以在完成算法测试时看到。如果这个规则不在词干分析器中,结果就会不同(更糟)。看单词表[ridiculousness, caress]

Case 1.算法中的规则SS->SS

词干提取:

caress (Step 1a)-> caress OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 100%

Case 2. 规则 SS->SS 不在算法中。

词干提取:

caress -> fail OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 50%

从实用的角度来看,这条规则并不重要。形式主义罢了。