词汇处理器功能
Vocabulary Processor function
我正在研究卷积神经网络的嵌入输入,我了解 Word2vec。然而,在CNN text classification. dennybritz used function learn.preprocessing.VocabularyProcessor
. In the document。他们说它将文档映射到单词 ID 序列。我不太清楚这个功能是如何工作的。它是创建一个 ID 列表然后将 ID 映射到单词还是它有一个单词及其 ID 的字典,当 运行 函数时它只给出 ID?
假设您只有两个文档 I like pizza
和 I like Pasta
。你的整个词汇表由这些单词组成 (I, like, pizza, pasta)
对于词汇表中的每个单词,都有一个索引关联,如 (1, 2, 3, 4)。现在给定一个像 I like pasta
这样的文档,它可以被转换成一个向量 [1, 2, 4]。这就是 learn.preprocessing.VocabularyProcessor
所做的。参数 max_document_length
确保所有文档都由长度为 max_document_length
的向量表示,如果它们的长度短于 max_document_length
则填充数字,如果它们的长度大于 [ 则裁剪它们=15=]希望这对你有帮助
我正在研究卷积神经网络的嵌入输入,我了解 Word2vec。然而,在CNN text classification. dennybritz used function learn.preprocessing.VocabularyProcessor
. In the document。他们说它将文档映射到单词 ID 序列。我不太清楚这个功能是如何工作的。它是创建一个 ID 列表然后将 ID 映射到单词还是它有一个单词及其 ID 的字典,当 运行 函数时它只给出 ID?
假设您只有两个文档 I like pizza
和 I like Pasta
。你的整个词汇表由这些单词组成 (I, like, pizza, pasta)
对于词汇表中的每个单词,都有一个索引关联,如 (1, 2, 3, 4)。现在给定一个像 I like pasta
这样的文档,它可以被转换成一个向量 [1, 2, 4]。这就是 learn.preprocessing.VocabularyProcessor
所做的。参数 max_document_length
确保所有文档都由长度为 max_document_length
的向量表示,如果它们的长度短于 max_document_length
则填充数字,如果它们的长度大于 [ 则裁剪它们=15=]希望这对你有帮助