节的下一个版本
next release of Stanza
我对意大利语的节选区解析器很感兴趣。
在 https://stanfordnlp.github.io/stanza/constituency.html 中,据说应该在 11 月中旬发布带有更新模型(包括在都灵树库上训练的意大利模型)的新版本。
关于 Stanza 的下一个版本何时发布的任何想法?
谢谢
阿尔贝托
这仍然是一项非常活跃的任务...我会说是 12 月或 1 月。
p.s。这不是一个很好的 SO 问题....
技术上你已经可以得到它了!如果您安装节的开发分支,您应该能够下载 IT 解析器。
pip install git+git://github.com/stanfordnlp/stanza.git@704d90df2418ee199d83c92c16de180aacccf5c0
stanza.download("it")
它是在拥有大约 4000 棵树的都灵树库上训练的。如果您下载该模型的 Bert 版本,它在 Evalita 测试集上获得超过 91 F1(但每个句子的长度限制约为 200 个单词)。
我们可能会挥霍一下获得 VIT 树库之类的东西。我一直在鼓动我们在丹麦语或 PT 或其他一些用户很少的语言上使用该预算,但这很难卖...
编辑:还包含一些用于将公开可用的都灵树转换为括号的脚本。他们的 MWT 注释样式是连续两次重复 MWT,这对于解析原始文本这样的任务来说效果不太好。
我对意大利语的节选区解析器很感兴趣。 在 https://stanfordnlp.github.io/stanza/constituency.html 中,据说应该在 11 月中旬发布带有更新模型(包括在都灵树库上训练的意大利模型)的新版本。 关于 Stanza 的下一个版本何时发布的任何想法? 谢谢 阿尔贝托
这仍然是一项非常活跃的任务...我会说是 12 月或 1 月。
p.s。这不是一个很好的 SO 问题....
技术上你已经可以得到它了!如果您安装节的开发分支,您应该能够下载 IT 解析器。
pip install git+git://github.com/stanfordnlp/stanza.git@704d90df2418ee199d83c92c16de180aacccf5c0
stanza.download("it")
它是在拥有大约 4000 棵树的都灵树库上训练的。如果您下载该模型的 Bert 版本,它在 Evalita 测试集上获得超过 91 F1(但每个句子的长度限制约为 200 个单词)。
我们可能会挥霍一下获得 VIT 树库之类的东西。我一直在鼓动我们在丹麦语或 PT 或其他一些用户很少的语言上使用该预算,但这很难卖...
编辑:还包含一些用于将公开可用的都灵树转换为括号的脚本。他们的 MWT 注释样式是连续两次重复 MWT,这对于解析原始文本这样的任务来说效果不太好。