如何在word_tokenize中将特殊字符放在一起？

Question

我的 NLP 问题涉及一些编码分配，例如“fn_point->extract.isolate_r”，当我使用 word_tokenize 时，分配“->”被拆分像这样 ["fn_point-", ">", "extract.isolate_r"].

我做了以下事情：

from nltk.tokenize import word_tokenize
sentence = "The functional list fn_point->extract.isolate_r of size 32 is not valid"
new_sent = word_tokenize(sentence)
print(new_sent)

“->”是c语言中的赋值运算符，如何保持一个词？

Answer 1

这有点临时但可以完成工作：

from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer('[\w\.]+|\d+|\->')

tokenizer.tokenize(sentence)

输出

['The', 'functional', 'list', 'fn_point', '->', 'extract.isolate_r', 'of', 'size', '32', 'is', 'not', 'valid']

如何在word_tokenize中将特殊字符放在一起？

How to keep special characters together in word_tokenize?

python

regex

string

nltk

python-3.x