在 Python 中对数据框中的动词列表进行词形还原
lemmatizing a verb list in a data frame in Python
想向Python高手请教一个看似简单的问题(我是菜鸟所以不知道simple/complex这个问题是怎么回事)!
我在数据框中有一个动词列表,如下所示:
id 动词
15 相信
64开始
90 相信
我想对其进行词形还原。问题是大多数词形还原都带有句子字符串。我的数据不提供上下文来决定其词性,因为我只需要 'verb' 个语音词条。
关于如何对这个动词列表进行词形还原,您有什么想法吗?
非常感谢您考虑我的问题!
如果您询问如何在 pandas DataFrame 列上应用函数,您可以这样做
import pandas as pd
from nltk.stem import WordNetLemmatizer
data = pd.DataFrame({
"id": [1, 2, 3, 4],
"verb": ["believe", "start", "believed", "starting"],
})
# https://www.nltk.org/_modules/nltk/stem/wordnet.html
wnl = WordNetLemmatizer()
data.verb = data.verb.map(lambda word: wnl.lemmatize(word, pos="v"))
print(data)
输出
id verb
0 1 believe
1 2 start
2 3 believe
3 4 start
想向Python高手请教一个看似简单的问题(我是菜鸟所以不知道simple/complex这个问题是怎么回事)!
我在数据框中有一个动词列表,如下所示:
id 动词
15 相信
64开始
90 相信
我想对其进行词形还原。问题是大多数词形还原都带有句子字符串。我的数据不提供上下文来决定其词性,因为我只需要 'verb' 个语音词条。
关于如何对这个动词列表进行词形还原,您有什么想法吗? 非常感谢您考虑我的问题!
如果您询问如何在 pandas DataFrame 列上应用函数,您可以这样做
import pandas as pd
from nltk.stem import WordNetLemmatizer
data = pd.DataFrame({
"id": [1, 2, 3, 4],
"verb": ["believe", "start", "believed", "starting"],
})
# https://www.nltk.org/_modules/nltk/stem/wordnet.html
wnl = WordNetLemmatizer()
data.verb = data.verb.map(lambda word: wnl.lemmatize(word, pos="v"))
print(data)
输出
id verb
0 1 believe
1 2 start
2 3 believe
3 4 start