python这个函数是做什么用的，基本就是找出这个函数需要在什么时候用，怎么用

Question

def tokenize_corpus(corpus, num_words=-1):
    # Fit a Tokenizer on the corpus
    if num_words > -1:
        tokenizer = Tokenizer(num_words=num_words)
    else:
        tokenizer = Tokenizer()
    tokenizer.fit_on_texts(corpus)
    return tokenizer

函数试图做什么？ "else"之后的部分我理解了，但是之前的部分我无法理解，谁能解释一下。

Answer 1

Tokenizer 是一个文本标记化实用程序 class。

这个 class 允许通过将每个文本转换为整数序列或向量来向量化文本语料库

参数 num_words：根据词频保留的最大词数。只会保留最常见的 num_words-1 个单词。

UPD : 这里使用 num_words tokenize_corpus 参数作为标志，-1 表示不使用 num words Tokenize 参数，否则使用 [它只是糟糕的实施]

更多信息：https://keras.io/api/preprocessing/text/

Coursera 教程[推荐]：https://www.coursera.org/lecture/natural-language-processing-tensorflow/working-with-the-tokenizer-VEUJX

python这个函数是做什么用的，基本就是找出这个函数需要在什么时候用，怎么用

what does the function of python meant to do,it is basically to find out when and how the function needs to be utilized

python

nlp

machine-learning

stringtokenizer