spaCy 实际实现了哪些神经网络模型?什么决定了它们在内存中的大小?

Which NN models does spaCy actually implement? What determines their size in memory?

我看到有一个 paper supplying the idea behind Sense2Vec, but how are/were the standard spaCy models created in the first place? When I download something like the standard "en_core_web_md" model from the selection of models,它是如何创建的?有没有我可以阅读的论文或 spaCy 博客文章?

加分题:

即将推出的 spaCy 2.0 中的新模型尺寸为何如此小?

来自version 2 Release summary

This release features entirely new deep learning-powered models for spaCy's tagger, parser and entity recognizer. The new models are 20x smaller than the linear models that have powered spaCy until now: from 300 MB to only 15 MB.

在这个方向上唯一真正的参考是发布摘要中的 here。 可以找到所有模型内存占用的摘要 here

是否提供了模型权重以及每次获取相关属性的调用实际上都在实时计算?这可以解释 this page

上的基准测试中显示的较慢的吞吐量

如果您查看模型 github 回购 https://github.com/explosion/spacy-models/releases 中的版本,则模型的每个部分都有详细信息,例如标记器或解析器,说明其训练的数据以及生成模型的准确性:

解析器:OntoNotes 5,准确率 91.5%

Tagger:OntoNotes 5,准确率 96.9%

NER:OntoNotes 5,准确率 84.7%

词向量:常见抓取

可以在此处找到有关训练模型所需代码的更多详细信息:http://spacy.io/docs/usage/training。上面链接的版本也附有源代码,但我还没有检查那是什么代码。


编辑:

通读 discussion following the announcement of v2.0 后,我遇到了一个问题,该问题解释了新神经网络模型的内部工作原理。

您可以在这里找到它:https://github.com/explosion/spaCy/issues/1057