在 Pandas Dataframe 中使用 NLTK 包进行句子标记化

Question

我有一个 table 如下：

姓名	评论
麦克	迈克评论一。 Mr.Mikes 评论 2. 麦克评论 3
杰克	Mr.Jacks评论一条。 Jacks 评论 2...例如，这是示例

我想要如下输出：

姓名	评论
麦克	麦克评论一
麦克	Mr.Mikes 评论 2
麦克	麦克评论 3
杰克	Mr.Jacks评论一条
杰克	杰克评论 2
杰克	例如这是例子

Answer 1

使用nltk.sent_tokenize with DataFrame.explode:

import nltk

df['comment'] = df['comment'].apply(nltk.sent_tokenize)

df = df.explode('comment')
print (df)
   Name                                 comment
0  Mike                      Mikes comment one.
0  Mike                     Mr.Mikes comment 2.
0  Mike                         Mikes comment 3
1  Jack                   Mr.Jacks comment one.
1  Jack  Jacks comment 2... e.g This is example

在 Pandas Dataframe 中使用 NLTK 包进行句子标记化

Sentence tokenization using NLTK package in Pandas Dataframe

python

nltk

pandas