Spacy 2.0 en_vectors_web_lg 对比 en_core_web_lg
Spacy 2.0 en_vectors_web_lg vs en_core_web_lg
en_core_web_lg and en_vectors_web_lg给出的词向量有什么区别?键的数量不同:1.1m 与 685k。我认为这意味着 en_vectors_web_lg 通过维护形态信息而具有更广泛的覆盖范围,这在某种程度上导致了更多不同的标记,因为它们都是在公共爬行语料库上训练的,但具有不同数量的标记。
en_vectors_web_lg
包中包含原始 GloVe 模型提供的所有向量。 en_core_web_lg
模型使用来自 v1.x en_core_web_lg
模型的词汇表,该模型从内存中删除了在 100 亿字的 Reddit 评论转储中出现次数少于 10 次的所有条目。
从理论上讲,大多数被删除的向量应该是 spaCy 分词器永远不会产生的东西。然而,早期使用完整 GloVe 向量的实验确实比当前的 NER 模型得分略高——所以我们实际上有可能因为丢失了额外的向量而错过了一些东西。我将对此做更多实验,并可能切换 lg
模型以包含未修剪的向量 table,尤其是现在我们有了 md
模型,它比当前 lg
包。
en_core_web_lg and en_vectors_web_lg给出的词向量有什么区别?键的数量不同:1.1m 与 685k。我认为这意味着 en_vectors_web_lg 通过维护形态信息而具有更广泛的覆盖范围,这在某种程度上导致了更多不同的标记,因为它们都是在公共爬行语料库上训练的,但具有不同数量的标记。
en_vectors_web_lg
包中包含原始 GloVe 模型提供的所有向量。 en_core_web_lg
模型使用来自 v1.x en_core_web_lg
模型的词汇表,该模型从内存中删除了在 100 亿字的 Reddit 评论转储中出现次数少于 10 次的所有条目。
从理论上讲,大多数被删除的向量应该是 spaCy 分词器永远不会产生的东西。然而,早期使用完整 GloVe 向量的实验确实比当前的 NER 模型得分略高——所以我们实际上有可能因为丢失了额外的向量而错过了一些东西。我将对此做更多实验,并可能切换 lg
模型以包含未修剪的向量 table,尤其是现在我们有了 md
模型,它比当前 lg
包。