如何 word_tokenize pandas 数据框

How to word_tokenize pandas dataframe

我的 pandas dataframe (df.tweet) 由 german tweets 一栏组成,我已经做了数据清理并删除了我不需要的列。现在我想 word_tokenize pandas 数据框中的推文。 对于 TextBlob,它仅适用于字符串,我只能逐个字符串标记数据框(请参见下面的代码)。我使用 textblob-de 因为它标记了德语文本。

是否有机会使用 for 循环为整个数据帧完成标记化?我是 Python 和 NLP 的新手,那时真的很累。如果有帮助就更好了!

这是我的:

pip install -U textblob-de
from textblob_de import TextBlobDE as TextBlob
TextBlob(df.tweet [1]).words

这应该有效。然而,TextBlob/NLTK 与 spaCy 或(尤其是)节等其他人相比,在标记化方面并不是最出色的。我建议您使用这些。

from textblob_de import TextBlobDE as TextBlob
df["tweet_tok"] = df["tweet"].apply(lambda x: " ".join(TextBlob(x).words))