在提取数据集后,一些单词显示不正确的方式
After stemming dataset some of words are showing incorrect way
tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ]
porter_stemmed_texts = []
for i in range(0, len(tokenize_texts )):
porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]]
porter_stemmed_texts.append(porter_stemmed_text)
porter_stemmed_texts
输出:
[ ['mention', 'review', **'episod', 'exactli'**] ]
期望输出:-
[ ['mention', 'review', **'episode', 'exactly'**] ]
这些错误是否正常。我们不能得到100%准确的单词吗?
词干分析器正在按预期工作。
"Episode" 应转为 "episod",以便与 "episodic" 相同。
"Exactly" -> "Exactli" 是算法中的一个怪癖,但它最终并没有什么不同,因为你还应该阻止你正在比较的文本,所以它也将包含 'exactli' 一旦词干。
tokenize_texts = [ ['mentioned', 'reviewers', **'episode', 'exactly'**] ]
porter_stemmed_texts = []
for i in range(0, len(tokenize_texts )):
porter_stemmed_text = [nltk.stem.PorterStemmer().stem(word) for word in tokenize_texts[i]]
porter_stemmed_texts.append(porter_stemmed_text)
porter_stemmed_texts
输出:
[ ['mention', 'review', **'episod', 'exactli'**] ]
期望输出:-
[ ['mention', 'review', **'episode', 'exactly'**] ]
这些错误是否正常。我们不能得到100%准确的单词吗?
词干分析器正在按预期工作。
"Episode" 应转为 "episod",以便与 "episodic" 相同。
"Exactly" -> "Exactli" 是算法中的一个怪癖,但它最终并没有什么不同,因为你还应该阻止你正在比较的文本,所以它也将包含 'exactli' 一旦词干。