在 Python 中对数据框中的动词列表进行词形还原

lemmatizing a verb list in a data frame in Python

想向Python高手请教一个看似简单的问题(我是菜鸟所以不知道simple/complex这个问题是怎么回事)!

我在数据框中有一个动词列表,如下所示:

id 动词
15 相信
64开始
90 相信

我想对其进行词形还原。问题是大多数词形还原都带有句子字符串。我的数据不提供上下文来决定其词性,因为我只需要 'verb' 个语音词条。

关于如何对这个动词列表进行词形还原,您有什么想法吗? 非常感谢您考虑我的问题!

如果您询问如何在 pandas DataFrame 列上应用函数,您可以这样做

import pandas as pd
from nltk.stem import WordNetLemmatizer


data = pd.DataFrame({
    "id": [1, 2, 3, 4],
    "verb": ["believe", "start", "believed", "starting"],
})
# https://www.nltk.org/_modules/nltk/stem/wordnet.html
wnl = WordNetLemmatizer()
data.verb = data.verb.map(lambda word: wnl.lemmatize(word, pos="v"))

print(data)

输出

   id     verb
0   1  believe
1   2    start
2   3  believe
3   4    start