如何在word_tokenize中将特殊字符放在一起?

How to keep special characters together in word_tokenize?

我的 NLP 问题涉及一些编码分配,例如“fn_point->extract.isolate_r”,当我使用 word_tokenize 时,分配“->”被拆分像这样 ["fn_point-", ">", "extract.isolate_r"].

我做了以下事情:

from nltk.tokenize import word_tokenize
sentence = "The functional list fn_point->extract.isolate_r of size 32 is not valid"
new_sent = word_tokenize(sentence)
print(new_sent)

->”是c语言中的赋值运算符,如何保持一个词?

这有点临时但可以完成工作:

from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer('[\w\.]+|\d+|\->')

tokenizer.tokenize(sentence)

输出

['The', 'functional', 'list', 'fn_point', '->', 'extract.isolate_r', 'of', 'size', '32', 'is', 'not', 'valid']