python这个函数是做什么用的,基本就是找出这个函数需要在什么时候用,怎么用

what does the function of python meant to do,it is basically to find out when and how the function needs to be utilized

def tokenize_corpus(corpus, num_words=-1):
    # Fit a Tokenizer on the corpus
    if num_words > -1:
        tokenizer = Tokenizer(num_words=num_words)
    else:
        tokenizer = Tokenizer()
    tokenizer.fit_on_texts(corpus)
    return tokenizer

函数试图做什么? "else"之后的部分我理解了,但是之前的部分我无法理解,谁能解释一下。

Tokenizer 是一个文本标记化实用程序 class。

这个 class 允许通过将每个文本转换为整数序列或向量来向量化文本语料库

参数 num_words:根据词频保留的最大词数。只会保留最常见的 num_words-1 个单词。

UPD : 这里使用 num_words tokenize_corpus 参数作为标志,-1 表示不使用 num words Tokenize 参数,否则使用 [它只是糟糕的实施]

更多信息:https://keras.io/api/preprocessing/text/

Coursera 教程[推荐]:https://www.coursera.org/lecture/natural-language-processing-tensorflow/working-with-the-tokenizer-VEUJX