节的下一个版本

next release of Stanza

我对意大利语的节选区解析器很感兴趣。 在 https://stanfordnlp.github.io/stanza/constituency.html 中,据说应该在 11 月中旬发布带有更新模型(包括在都灵树库上训练的意大利模型)的新版本。 关于 Stanza 的下一个版本何时发布的任何想法? 谢谢 阿尔贝托

这仍然是一项非常活跃的任务...我会说是 12 月或 1 月。

p.s。这不是一个很好的 SO 问题....

技术上你已经可以得到它了!如果您安装节的开发分支,您应该能够下载 IT 解析器。

pip install git+git://github.com/stanfordnlp/stanza.git@704d90df2418ee199d83c92c16de180aacccf5c0


stanza.download("it")

它是在拥有大约 4000 棵树的都灵树库上训练的。如果您下载该模型的 Bert 版本,它在 Evalita 测试集上获得超过 91 F1(但每个句子的长度限制约为 200 个单词)。

我们可能会挥霍一下获得 VIT 树库之类的东西。我一直在鼓动我们在丹麦语或 PT 或其他一些用户很少的语言上使用该预算,但这很难卖...

编辑:还包含一些用于将公开可用的都灵树转换为括号的脚本。他们的 MWT 注释样式是连续两次重复 MWT,这对于解析原始文本这样的任务来说效果不太好。