Snowball Stemmer:糟糕的法语词干提取
Snowball Stemmer : poor french stemming
我正在处理一些 nlp 任务。我的输入是法语文本,因此在我的上下文中只能使用 Snowball Stemmer。但是,不幸的是,它一直给我糟糕的词干,因为它甚至不会删除 plural "s"
或 silent e
。下面是一些例子:
from nltk.stem import SnowballStemmer
SnowballStemmer("french").stem("pommes, noisettes dorées & moelleuses, la boîte de 350g")
Output: 'pommes, noisettes dorées & moelleuses, la boîte de 350g'
词干提取器提取单词而不是句子,因此对句子进行分词并单独提取分词。
>>> from nltk import word_tokenize
>>> from nltk.stem import SnowballStemmer
>>> fr = SnowballStemmer('french')
>>> sent = "pommes, noisettes dorées & moelleuses, la boîte de 350g"
>>> word_tokenize(sent)
['pommes', ',', 'noisettes', 'dorées', '&', 'moelleuses', ',', 'la', 'boîte', 'de', '350g']
>>> [fr.stem(word) for word in word_tokenize(sent)]
['pomm', ',', 'noiset', 'dor', '&', 'moelleux', ',', 'la', 'boît', 'de', '350g']
>>> ' '.join([fr.stem(word) for word in word_tokenize(sent)])
'pomm , noiset dor & moelleux , la boît de 350g'
我正在处理一些 nlp 任务。我的输入是法语文本,因此在我的上下文中只能使用 Snowball Stemmer。但是,不幸的是,它一直给我糟糕的词干,因为它甚至不会删除 plural "s"
或 silent e
。下面是一些例子:
from nltk.stem import SnowballStemmer
SnowballStemmer("french").stem("pommes, noisettes dorées & moelleuses, la boîte de 350g")
Output: 'pommes, noisettes dorées & moelleuses, la boîte de 350g'
词干提取器提取单词而不是句子,因此对句子进行分词并单独提取分词。
>>> from nltk import word_tokenize
>>> from nltk.stem import SnowballStemmer
>>> fr = SnowballStemmer('french')
>>> sent = "pommes, noisettes dorées & moelleuses, la boîte de 350g"
>>> word_tokenize(sent)
['pommes', ',', 'noisettes', 'dorées', '&', 'moelleuses', ',', 'la', 'boîte', 'de', '350g']
>>> [fr.stem(word) for word in word_tokenize(sent)]
['pomm', ',', 'noiset', 'dor', '&', 'moelleux', ',', 'la', 'boît', 'de', '350g']
>>> ' '.join([fr.stem(word) for word in word_tokenize(sent)])
'pomm , noiset dor & moelleux , la boît de 350g'