关于训练 Maltparser 模型的问题

Issues Regarding Training Maltparser Model

我正在尝试为 Bangla 训练 Maltparser 模型。我已经用 Conllu 格式注释了一个小语料库。但它给了我空指针错误。所以我尝试使用从 UD 网站收集的一些树库。它适用于那些数据集。我的问题是

  1. 我可以在没有 XPOSTAG 的情况下训练 Maltparser 模型吗,我已经注释了 UPOSTAG 字段并且 XPOSTAG 字段只是 UPOSTAG 的副本。我需要注释 XPOSTAG 吗?这是我的树库和UD树库的唯一区别

  2. 因为它是用于评估目的,我可以自动将 UPOSTAG 转换为 XPOSTAG 吗?

参考:http://universaldependencies.org/format.html

为了更好地理解,我举了我的银行和 UD 银行的例子

我的示例银行(有错误和一些空白字段)(语言是孟加拉语)

1   Ajake   _   NOUN    NOUN    _   5   iobj    _   _
2   rAtera  _   NOUN    NOUN    _   1   nmod    _   _
3   AbahAoYA    _   NOUN    NOUN    _   5   nsubj   _   _
4   kemana  _   ADV ADV _   5   advmod  _   _
5   hate    _   VERB    VERB    _   0   root    _   _
6   pAre    _   AUX AUX _   5   aux _   SpaceAfter=No
7   ?   _   _   _   _   _   _   _   _

1   Ajake   _   NOUN    NOUN    _   5   iobj    _   _
2   bikAlera    _   NOUN    NOUN    _   1   nmod    _   _
3   paribesha   _   NOUN    NOUN    _   5   nsubj   _   _
4   kemana  _   ADV ADV _   5   advmod  _   _
5   hate    _   VERB    VERB    _   0   root    _   _
6   pAre    _   AUX AUX _   5   aux _   SpaceAfter=No
7   ?   _   _   _   _   _   _   _   _

UD银行

1   From    _   ADP IN  _   3   case    _   _
2   the _   DET DT  _   3   det _   _
3   AP  _   PROPN   NNP _   4   nmod    _   _
4   comes   _   VERB    VBZ _   0   root    _   _
5   this    _   DET DT  _   6   det _   _
6   story   _   NOUN    NN  _   4   nsubj   _   _
7   :   _   PUNCT   :   _   4   punct   _   _

1   President   _   PROPN   NNP _   2   compound    _   _
2   Bush    _   PROPN   NNP _   5   nsubj   _   _
3   on  _   ADP IN  _   4   case    _   _
4   Tuesday _   PROPN   NNP _   5   nmod    _   _
5   nominated   _   VERB    VBD _   0   root    _   _
6   two _   NUM CD  _   7   nummod  _   _
7   individuals _   NOUN    NNS _   5   dobj    _   _
8   to  _   PART    TO  _   9   mark    _   _
9   replace _   VERB    VB  _   5   advcl   _   _
10  retiring    _   VERB    VBG _   11  amod    _   _
11  jurists _   NOUN    NNS _   9   dobj    _   _
12  on  _   ADP IN  _   14  case    _   _
13  federal _   ADJ JJ  _   14  amod    _   _
14  courts  _   NOUN    NNS _   11  nmod    _   _
15  in  _   ADP IN  _   18  case    _   _
16  the _   DET DT  _   18  det _   _
17  Washington  _   PROPN   NNP _   18  compound    _   _
18  area    _   NOUN    NN  _   14  nmod    _   _
19  .   _   PUNCT   .   _   5   punct   _   _

好的,我找到了第一个问题的解决方案。您不需要 XPOSTAG,复制 UPOSTAG 将允许进行培训。我的问题是没有单词或标点符号,“?”在问题中,can be left blank.it 必须被标记为 pos 并且必须依赖于根。它解决了我的问题。

对于第二个问题,答案是模棱两可的。 UPOSTAG 和 XPOSTAG 之间没有有效的一对一关系,因为它依赖于语言。任何使用 Penn Tree Bank 标签的 table 都可以。但需要 post- 精确处理。