如何解读 NLTK Brill 标注器规则

How to Interpret NLTK Brill Tagger Rules

对于生成的 Brill 标注器规则:

Rule('016', 'CS', 'QL', [(Word([1, 2, 3]),'as')])

我知道: 'CS' 是从属连词 'QL' 是限定词

我猜: [(Word([1, 2, 3]),'as')]表示规则的条件。它代表单词 'as' 出现在目标单词之前的第一、第二或第三位置。目标词是要被 POS 标记标记的词。

我不知道: '016' 是什么意思? 如何从整体上解读规则?

规则的文档是 here. 016 将是 templateid,即用于创建规则的模板。 您还可以获得规则的描述:

q = Rule('016', 'CS', 'QL', [(Word([1, 2, 3]),'as')])
q.format('verbose')
'CS -> QL if the Word of words i+1...i+3 is "as"'

在这种情况下,实际上是 目标词之后的词。 (由 i+1... 表示)