标记化字符串列表而不用逗号分隔

Tokenize list of strings without comma separation

我还是 Python 的新手,想知道如何标记字符串列表而不用逗号分隔每个单词。

例如,从['I have to get groceries.'、'I need some bananas.'、'Anything else?']这样的列表开始,我想得到这样的列表:['I have to get groceries .'、'I need some bananas .'、'Anything else ?']。因此,重点不是必须创建一个包含单独标记的列表,而是创建一个包含所有单词和标点符号彼此分开的句子的列表。

有什么想法吗?我只设法使用以下代码创建了一个逗号分隔的标记列表:

nltk.download('punkt')
from nltk import word_tokenize 
tokenized = []
for line in unique:
      tokenized.append(word_tokenize(line))```
 

您可以使用 space 加入标记化行,只需使用

from nltk import word_tokenize
unique = ['I have to get groceries.','I need some bananas.','Anything else?']
tokenized = [" ".join(word_tokenize(line)) for line in unique]
print(tokenized)
# => ['I have to get groceries .', 'I need some bananas .', 'Anything else ?']