NLTK 的 word_tokenize 与 str.split() 不同的情况有哪些?

What are the cases where NLTK's word_tokenize differs from str.split()?

是否有文档可以让我找到 word_tokenize 是 different/better 的所有可能情况,而不是简单地用空格分割?如果没有,能否给出一个半完整的列表?

Word_tokenize 文档:https://www.kite.com/python/docs/nltk.word_tokenize

NLTK 标记化包文档:https://www.nltk.org/api/nltk.tokenize.html