如何在word_tokenize中将特殊字符放在一起?
How to keep special characters together in word_tokenize?
我的 NLP 问题涉及一些编码分配,例如“fn_point->extract.isolate_r”,当我使用 word_tokenize
时,分配“->
”被拆分像这样 ["fn_point-", ">", "extract.isolate_r"]
.
我做了以下事情:
from nltk.tokenize import word_tokenize
sentence = "The functional list fn_point->extract.isolate_r of size 32 is not valid"
new_sent = word_tokenize(sentence)
print(new_sent)
“->
”是c语言中的赋值运算符,如何保持一个词?
这有点临时但可以完成工作:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('[\w\.]+|\d+|\->')
tokenizer.tokenize(sentence)
输出
['The', 'functional', 'list', 'fn_point', '->', 'extract.isolate_r', 'of', 'size', '32', 'is', 'not', 'valid']
我的 NLP 问题涉及一些编码分配,例如“fn_point->extract.isolate_r”,当我使用 word_tokenize
时,分配“->
”被拆分像这样 ["fn_point-", ">", "extract.isolate_r"]
.
我做了以下事情:
from nltk.tokenize import word_tokenize
sentence = "The functional list fn_point->extract.isolate_r of size 32 is not valid"
new_sent = word_tokenize(sentence)
print(new_sent)
“->
”是c语言中的赋值运算符,如何保持一个词?
这有点临时但可以完成工作:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer('[\w\.]+|\d+|\->')
tokenizer.tokenize(sentence)
输出
['The', 'functional', 'list', 'fn_point', '->', 'extract.isolate_r', 'of', 'size', '32', 'is', 'not', 'valid']