NLTK 的 word_tokenize 与 str.split() 不同的情况有哪些?
What are the cases where NLTK's word_tokenize differs from str.split()?
是否有文档可以让我找到 word_tokenize
是 different/better 的所有可能情况,而不是简单地用空格分割?如果没有,能否给出一个半完整的列表?
Word_tokenize 文档:https://www.kite.com/python/docs/nltk.word_tokenize
NLTK 标记化包文档:https://www.nltk.org/api/nltk.tokenize.html
是否有文档可以让我找到 word_tokenize
是 different/better 的所有可能情况,而不是简单地用空格分割?如果没有,能否给出一个半完整的列表?
Word_tokenize 文档:https://www.kite.com/python/docs/nltk.word_tokenize
NLTK 标记化包文档:https://www.nltk.org/api/nltk.tokenize.html