python这个函数是做什么用的,基本就是找出这个函数需要在什么时候用,怎么用
what does the function of python meant to do,it is basically to find out when and how the function needs to be utilized
def tokenize_corpus(corpus, num_words=-1):
# Fit a Tokenizer on the corpus
if num_words > -1:
tokenizer = Tokenizer(num_words=num_words)
else:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
return tokenizer
函数试图做什么? "else"之后的部分我理解了,但是之前的部分我无法理解,谁能解释一下。
Tokenizer 是一个文本标记化实用程序 class。
这个 class 允许通过将每个文本转换为整数序列或向量来向量化文本语料库
参数
num_words:根据词频保留的最大词数。只会保留最常见的 num_words-1 个单词。
UPD : 这里使用 num_words tokenize_corpus 参数作为标志,-1 表示不使用 num words Tokenize 参数,否则使用
[它只是糟糕的实施]
更多信息:https://keras.io/api/preprocessing/text/
Coursera 教程[推荐]:https://www.coursera.org/lecture/natural-language-processing-tensorflow/working-with-the-tokenizer-VEUJX
def tokenize_corpus(corpus, num_words=-1):
# Fit a Tokenizer on the corpus
if num_words > -1:
tokenizer = Tokenizer(num_words=num_words)
else:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
return tokenizer
函数试图做什么? "else"之后的部分我理解了,但是之前的部分我无法理解,谁能解释一下。
Tokenizer 是一个文本标记化实用程序 class。
这个 class 允许通过将每个文本转换为整数序列或向量来向量化文本语料库
参数 num_words:根据词频保留的最大词数。只会保留最常见的 num_words-1 个单词。
UPD : 这里使用 num_words tokenize_corpus 参数作为标志,-1 表示不使用 num words Tokenize 参数,否则使用 [它只是糟糕的实施]
更多信息:https://keras.io/api/preprocessing/text/
Coursera 教程[推荐]:https://www.coursera.org/lecture/natural-language-processing-tensorflow/working-with-the-tokenizer-VEUJX