Spacy

Question

在使用向量作为递归神经网络的输入后，我使用 spacy 将句子中的每个单词替换为 number/code。

import spacy
 str="basing based base"
 sp = spacy.load('en_core_web_sm')
 sentence=sp(str)
 for w in sentence:
    print(w.text,w.lemma)

在keras神经网络的第一层，嵌入层，我必须知道查找中的最大单词数table，有人知道这个数字吗？谢谢

Answer 1

词条索引实际上是散列，因此没有从0到词条数的连续索引行。即使 sp.vocab.strings["randomnonwordstring#"] 也给你一个整数。

对于条目 "base"，ID 是 4715552063986449646 in sp.vocab（请注意它是形式和词条的共享词汇）。你永远不会在内存中容纳如此多的嵌入。

正确的解决方案是创建字典，根据训练数据中的内容将单词转换为索引。

Spacy - 引理数