在 Porter Stemming 算法中,包含 SS -> SS 等身份规则的目的是什么?
In the Porter Stemming algorithm, what is the purpose of including an identity rule such as SS -> SS?
具有将 SS
转换为 SS
的规则的 Porter Stemmer algorithm 有什么意义?
假设规则 SS->SS
不在算法中。然后像 caress
这样的词根本不会被识别,而且算法似乎无法做任何事情来将它缩减为一个词干。但是,对于规则 SS->SS
,词干分析器会说:"I recognize the word caress
and I reduce it to caress
. I'm done"。备选方案是:"I can't do anything"。当然这是虚构的工作,但重要的是它提高了词干分析器的精度。您可以在完成算法测试时看到。如果这个规则不在词干分析器中,结果就会不同(更糟)。看单词表[ridiculousness, caress]
Case 1.
算法中的规则SS->SS
。
词干提取:
caress (Step 1a)-> caress OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 100%
Case 2.
规则 SS->SS
不在算法中。
词干提取:
caress -> fail OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 50%
从实用的角度来看,这条规则并不重要。形式主义罢了。
具有将 SS
转换为 SS
的规则的 Porter Stemmer algorithm 有什么意义?
假设规则 SS->SS
不在算法中。然后像 caress
这样的词根本不会被识别,而且算法似乎无法做任何事情来将它缩减为一个词干。但是,对于规则 SS->SS
,词干分析器会说:"I recognize the word caress
and I reduce it to caress
. I'm done"。备选方案是:"I can't do anything"。当然这是虚构的工作,但重要的是它提高了词干分析器的精度。您可以在完成算法测试时看到。如果这个规则不在词干分析器中,结果就会不同(更糟)。看单词表[ridiculousness, caress]
Case 1.
算法中的规则SS->SS
。
词干提取:
caress (Step 1a)-> caress OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 100%
Case 2.
规则 SS->SS
不在算法中。
词干提取:
caress -> fail OK
ridiculousness (Step 2)-> ridiculous (step 4) -> ridicul OK
Success rate: 50%
从实用的角度来看,这条规则并不重要。形式主义罢了。