关于训练 Maltparser 模型的问题
Issues Regarding Training Maltparser Model
我正在尝试为 Bangla 训练 Maltparser 模型。我已经用 Conllu 格式注释了一个小语料库。但它给了我空指针错误。所以我尝试使用从 UD 网站收集的一些树库。它适用于那些数据集。我的问题是
我可以在没有 XPOSTAG 的情况下训练 Maltparser 模型吗,我已经注释了 UPOSTAG 字段并且 XPOSTAG 字段只是 UPOSTAG 的副本。我需要注释 XPOSTAG 吗?这是我的树库和UD树库的唯一区别
因为它是用于评估目的,我可以自动将 UPOSTAG 转换为 XPOSTAG 吗?
参考:http://universaldependencies.org/format.html
为了更好地理解,我举了我的银行和 UD 银行的例子
我的示例银行(有错误和一些空白字段)(语言是孟加拉语)
1 Ajake _ NOUN NOUN _ 5 iobj _ _
2 rAtera _ NOUN NOUN _ 1 nmod _ _
3 AbahAoYA _ NOUN NOUN _ 5 nsubj _ _
4 kemana _ ADV ADV _ 5 advmod _ _
5 hate _ VERB VERB _ 0 root _ _
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No
7 ? _ _ _ _ _ _ _ _
1 Ajake _ NOUN NOUN _ 5 iobj _ _
2 bikAlera _ NOUN NOUN _ 1 nmod _ _
3 paribesha _ NOUN NOUN _ 5 nsubj _ _
4 kemana _ ADV ADV _ 5 advmod _ _
5 hate _ VERB VERB _ 0 root _ _
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No
7 ? _ _ _ _ _ _ _ _
UD银行
1 From _ ADP IN _ 3 case _ _
2 the _ DET DT _ 3 det _ _
3 AP _ PROPN NNP _ 4 nmod _ _
4 comes _ VERB VBZ _ 0 root _ _
5 this _ DET DT _ 6 det _ _
6 story _ NOUN NN _ 4 nsubj _ _
7 : _ PUNCT : _ 4 punct _ _
1 President _ PROPN NNP _ 2 compound _ _
2 Bush _ PROPN NNP _ 5 nsubj _ _
3 on _ ADP IN _ 4 case _ _
4 Tuesday _ PROPN NNP _ 5 nmod _ _
5 nominated _ VERB VBD _ 0 root _ _
6 two _ NUM CD _ 7 nummod _ _
7 individuals _ NOUN NNS _ 5 dobj _ _
8 to _ PART TO _ 9 mark _ _
9 replace _ VERB VB _ 5 advcl _ _
10 retiring _ VERB VBG _ 11 amod _ _
11 jurists _ NOUN NNS _ 9 dobj _ _
12 on _ ADP IN _ 14 case _ _
13 federal _ ADJ JJ _ 14 amod _ _
14 courts _ NOUN NNS _ 11 nmod _ _
15 in _ ADP IN _ 18 case _ _
16 the _ DET DT _ 18 det _ _
17 Washington _ PROPN NNP _ 18 compound _ _
18 area _ NOUN NN _ 14 nmod _ _
19 . _ PUNCT . _ 5 punct _ _
好的,我找到了第一个问题的解决方案。您不需要 XPOSTAG,复制 UPOSTAG 将允许进行培训。我的问题是没有单词或标点符号,“?”在问题中,can be left blank.it 必须被标记为 pos 并且必须依赖于根。它解决了我的问题。
对于第二个问题,答案是模棱两可的。 UPOSTAG 和 XPOSTAG 之间没有有效的一对一关系,因为它依赖于语言。任何使用 Penn Tree Bank 标签的 table 都可以。但需要 post- 精确处理。
我正在尝试为 Bangla 训练 Maltparser 模型。我已经用 Conllu 格式注释了一个小语料库。但它给了我空指针错误。所以我尝试使用从 UD 网站收集的一些树库。它适用于那些数据集。我的问题是
我可以在没有 XPOSTAG 的情况下训练 Maltparser 模型吗,我已经注释了 UPOSTAG 字段并且 XPOSTAG 字段只是 UPOSTAG 的副本。我需要注释 XPOSTAG 吗?这是我的树库和UD树库的唯一区别
因为它是用于评估目的,我可以自动将 UPOSTAG 转换为 XPOSTAG 吗?
参考:http://universaldependencies.org/format.html
为了更好地理解,我举了我的银行和 UD 银行的例子
我的示例银行(有错误和一些空白字段)(语言是孟加拉语)
1 Ajake _ NOUN NOUN _ 5 iobj _ _
2 rAtera _ NOUN NOUN _ 1 nmod _ _
3 AbahAoYA _ NOUN NOUN _ 5 nsubj _ _
4 kemana _ ADV ADV _ 5 advmod _ _
5 hate _ VERB VERB _ 0 root _ _
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No
7 ? _ _ _ _ _ _ _ _
1 Ajake _ NOUN NOUN _ 5 iobj _ _
2 bikAlera _ NOUN NOUN _ 1 nmod _ _
3 paribesha _ NOUN NOUN _ 5 nsubj _ _
4 kemana _ ADV ADV _ 5 advmod _ _
5 hate _ VERB VERB _ 0 root _ _
6 pAre _ AUX AUX _ 5 aux _ SpaceAfter=No
7 ? _ _ _ _ _ _ _ _
UD银行
1 From _ ADP IN _ 3 case _ _
2 the _ DET DT _ 3 det _ _
3 AP _ PROPN NNP _ 4 nmod _ _
4 comes _ VERB VBZ _ 0 root _ _
5 this _ DET DT _ 6 det _ _
6 story _ NOUN NN _ 4 nsubj _ _
7 : _ PUNCT : _ 4 punct _ _
1 President _ PROPN NNP _ 2 compound _ _
2 Bush _ PROPN NNP _ 5 nsubj _ _
3 on _ ADP IN _ 4 case _ _
4 Tuesday _ PROPN NNP _ 5 nmod _ _
5 nominated _ VERB VBD _ 0 root _ _
6 two _ NUM CD _ 7 nummod _ _
7 individuals _ NOUN NNS _ 5 dobj _ _
8 to _ PART TO _ 9 mark _ _
9 replace _ VERB VB _ 5 advcl _ _
10 retiring _ VERB VBG _ 11 amod _ _
11 jurists _ NOUN NNS _ 9 dobj _ _
12 on _ ADP IN _ 14 case _ _
13 federal _ ADJ JJ _ 14 amod _ _
14 courts _ NOUN NNS _ 11 nmod _ _
15 in _ ADP IN _ 18 case _ _
16 the _ DET DT _ 18 det _ _
17 Washington _ PROPN NNP _ 18 compound _ _
18 area _ NOUN NN _ 14 nmod _ _
19 . _ PUNCT . _ 5 punct _ _
好的,我找到了第一个问题的解决方案。您不需要 XPOSTAG,复制 UPOSTAG 将允许进行培训。我的问题是没有单词或标点符号,“?”在问题中,can be left blank.it 必须被标记为 pos 并且必须依赖于根。它解决了我的问题。
对于第二个问题,答案是模棱两可的。 UPOSTAG 和 XPOSTAG 之间没有有效的一对一关系,因为它依赖于语言。任何使用 Penn Tree Bank 标签的 table 都可以。但需要 post- 精确处理。