Pandas Dataframe 中文本词形还原期间的类型错误

Question

我正在处理文本数据并对其执行预处理步骤。

我正在使用 SpaCy 模块对文本进行词形还原。我写的代码如下：

import spacy
import de_core_news_sm
nlp = de_core_news_sm.load()

def spacy_lemma_text(text):
    doc = nlp(text)
    tokens = [tok.lemma_.lower().strip() for tok in doc]
    tokens = ' '.join(tokens)
    return tokens

df['spacy_lemma_text'] = data['Text'].apply(spacy_lemma_text)

代码给出以下错误。我尝试了很多选择。我认为这与 pandas 数据框有关。请帮我解决错误。

TypeError: 'NoneType' object does not support item assignment

Answer 1

一个想法是只对非缺失和无 None 值应用解决方案：

m = data['Text'].notna()
data.loc[m, 'spacy_lemma_text'] = data.loc[m, 'Text'].apply(spacy_lemma_text)

Pandas Dataframe 中文本词形还原期间的类型错误

Type Error during text lemmatization in Pandas Dataframe

python

text

lemmatization

pandas