Spacy 2.0 en_vectors_web_lg 对比 en_core_web_lg

Spacy 2.0 en_vectors_web_lg vs en_core_web_lg

spacy

en_core_web_lg and en_vectors_web_lg给出的词向量有什么区别？键的数量不同：1.1m 与 685k。我认为这意味着 en_vectors_web_lg 通过维护形态信息而具有更广泛的覆盖范围，这在某种程度上导致了更多不同的标记，因为它们都是在公共爬行语料库上训练的，但具有不同数量的标记。

en_vectors_web_lg 包中包含原始 GloVe 模型提供的所有向量。 en_core_web_lg 模型使用来自 v1.x en_core_web_lg 模型的词汇表，该模型从内存中删除了在 100 亿字的 Reddit 评论转储中出现次数少于 10 次的所有条目。

从理论上讲，大多数被删除的向量应该是 spaCy 分词器永远不会产生的东西。然而，早期使用完整 GloVe 向量的实验确实比当前的 NER 模型得分略高——所以我们实际上有可能因为丢失了额外的向量而错过了一些东西。我将对此做更多实验，并可能切换 lg 模型以包含未修剪的向量 table，尤其是现在我们有了 md 模型，它比当前 lg 包。

Spacy 2.0 en_vectors_web_lg 对比 en_core_web_lg

Spacy 2.0 en_vectors_web_lg vs en_core_web_lg

spacy