词汇处理器功能

Vocabulary Processor function

我正在研究卷积神经网络的嵌入输入,我了解 Word2vec。然而,在CNN text classification. dennybritz used function learn.preprocessing.VocabularyProcessor. In the document。他们说它将文档映射到单词 ID 序列。我不太清楚这个功能是如何工作的。它是创建一个 ID 列表然后将 ID 映射到单词还是它有一个单词及其 ID 的字典,当 运行 函数时它只给出 ID?

假设您只有两个文档 I like pizzaI like Pasta。你的整个词汇表由这些单词组成 (I, like, pizza, pasta) 对于词汇表中的每个单词,都有一个索引关联,如 (1, 2, 3, 4)。现在给定一个像 I like pasta 这样的文档,它可以被转换成一个向量 [1, 2, 4]。这就是 learn.preprocessing.VocabularyProcessor 所做的。参数 max_document_length 确保所有文档都由长度为 max_document_length 的向量表示,如果它们的长度短于 max_document_length 则填充数字,如果它们的长度大于 [ 则裁剪它们=15=]希望这对你有帮助