词汇处理器功能

Vocabulary Processor function

我正在研究卷积神经网络的嵌入输入，我了解 Word2vec。然而，在CNN text classification. dennybritz used function learn.preprocessing.VocabularyProcessor. In the document。他们说它将文档映射到单词 ID 序列。我不太清楚这个功能是如何工作的。它是创建一个 ID 列表然后将 ID 映射到单词还是它有一个单词及其 ID 的字典，当运行函数时它只给出 ID？

假设您只有两个文档 I like pizza 和 I like Pasta。你的整个词汇表由这些单词组成 (I, like, pizza, pasta) 对于词汇表中的每个单词，都有一个索引关联，如 (1, 2, 3, 4)。现在给定一个像 I like pasta 这样的文档，它可以被转换成一个向量 [1, 2, 4]。这就是 learn.preprocessing.VocabularyProcessor 所做的。参数 max_document_length 确保所有文档都由长度为 max_document_length 的向量表示，如果它们的长度短于 max_document_length 则填充数字，如果它们的长度大于 [ 则裁剪它们=15=]希望这对你有帮助

词汇处理器功能

Vocabulary Processor function

python

text-classification

tensorflow