<nltk.tokenize.casual.TweetTokenizer at 0x7f7fec4d5970> 问题

Question

这可能是一个基本问题，但我被困在这里，不确定哪里出了问题。

df['text'] 包含我要处理的文本数据

    text_sents=df.text

tokens = []
for uni in text_sents:
    tok=TweetTokenizer(uni)
    tokens.append(tok)

print(tokens)

它returns

[，，，，，，，，，，，，，< nltk.tokenize.casual.TweetTokenizer 对象位于 0x7f7febf7e250>，，，，，，，，，，，，，, , ，，，，.. .

不知道该怎么办，这可能与 N/A 值有关吗？

Answer 1

TweetTokenizer() 是 TweetTokenizer class 的构造函数，因此 returns 是一个分词器对象。然后你应该调用 tokenizer.tokenize(sentence):

tokenizer=TweetTokenizer() 
for uni in text_sents:
    tok = tokenizer.tokenize(uni)
    tokens.append(tok)

print(tokens)

<nltk.tokenize.casual.TweetTokenizer at 0x7f7fec4d5970> issue