修复奇怪引理的必要条件?

necessary condition to fix weird lemma's?

(在 jupyter notbook 中执行) 我正在对已标记化的文档应用词形还原,我不禁注意到 "us" 这个词得到每次都被词形化为 "u" ,从清晰的角度来看这没有意义,并且可能会导致人们将其理解为其他东西。我错过了我的 pos 功能的条件吗?我该如何解决这个问题?

定义函数

from nltk import pos_tag

def penn2wordNet(treebank_tags):
    wordNet_tag = {'NN':'n', 'JJ':'a',
                  'VB':'v', 'RB':'r'}
    try:
        return wordNet_tag[penntag[:2]]
    except:
        return 'n'
paired_tags = []
for doc in wordTokens:
    paired_tags.append(pos_tag(doc))
    print(paired_tags)

对标记进行词形还原

    from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()

print(wordTokens[1])
lemmatized_wordTokens = []
for index in range(len(paired_tags)):
    lemmatized_wordTokens.append(([wnl.lemmatize(word, pos=penn2wordNet(tag)) for word, tag in paired_tags[index]]))
print(lemmatized_wordTokens[1])

尽管 pos_tag(['us']) returns [('us', 'PRP')],您的 penn2wordNet 函数将名词 POS 标记分配给 "us"。这使得 WordNetLemmatizer 将 "us" 视为名词。您必须添加一个附加条件来处理人称代词。