<nltk.tokenize.casual.TweetTokenizer at 0x7f7fec4d5970> 问题
<nltk.tokenize.casual.TweetTokenizer at 0x7f7fec4d5970> issue
这可能是一个基本问题,但我被困在这里,不确定哪里出了问题。
df['text'] 包含我要处理的文本数据
text_sents=df.text
tokens = []
for uni in text_sents:
tok=TweetTokenizer(uni)
tokens.append(tok)
print(tokens)
它returns
[,,,, ,,,,,,,,,< nltk.tokenize.casual.TweetTokenizer 对象位于 0x7f7febf7e250>,,,,,,,,,,,,,, , ,,,,.. .
不知道该怎么办,
这可能与 N/A 值有关吗?
TweetTokenizer()
是 TweetTokenizer class 的构造函数,因此 returns 是一个分词器对象。然后你应该调用 tokenizer.tokenize(sentence)
:
tokenizer=TweetTokenizer()
for uni in text_sents:
tok = tokenizer.tokenize(uni)
tokens.append(tok)
print(tokens)
这可能是一个基本问题,但我被困在这里,不确定哪里出了问题。
df['text'] 包含我要处理的文本数据
text_sents=df.text
tokens = []
for uni in text_sents:
tok=TweetTokenizer(uni)
tokens.append(tok)
print(tokens)
它returns
[
不知道该怎么办, 这可能与 N/A 值有关吗?
TweetTokenizer()
是 TweetTokenizer class 的构造函数,因此 returns 是一个分词器对象。然后你应该调用 tokenizer.tokenize(sentence)
:
tokenizer=TweetTokenizer()
for uni in text_sents:
tok = tokenizer.tokenize(uni)
tokens.append(tok)
print(tokens)