<nltk.tokenize.casual.TweetTokenizer at 0x7f7fec4d5970> 问题

<nltk.tokenize.casual.TweetTokenizer at 0x7f7fec4d5970> issue

这可能是一个基本问题,但我被困在这里,不确定哪里出了问题。

df['text'] 包含我要处理的文本数据

    text_sents=df.text

tokens = []
for uni in text_sents:
    tok=TweetTokenizer(uni)
    tokens.append(tok)

print(tokens)

它returns

[,< nltk.tokenize.casual.TweetTokenizer 对象位于 0x7f7febf7e250>,, , .. .

不知道该怎么办, 这可能与 N/A 值有关吗?

TweetTokenizer()TweetTokenizer class 的构造函数,因此 returns 是一个分词器对象。然后你应该调用 tokenizer.tokenize(sentence):

tokenizer=TweetTokenizer() 
for uni in text_sents:
    tok = tokenizer.tokenize(uni)
    tokens.append(tok)

print(tokens)