如何为 Mallet SimpleTagger 添加词级特征?

How to add word-level features to Mallet SimpleTagger?

我一直在浏览 this blog post,其中包含一个 SimpleTagger 示例。

它说:

给定一个输入文件"sample"如下:

CAPITAL Bill  noun
        slept non-noun
        here non-noun
where all but the last token on each line is a binary feature, and the last token on the line is the label name

那么,如何在此处添加词级特征呢?

例子:单词的音节数,单词的长度等

最后一个标记之前的所有内容都被视为特征。您应该能够在此之前添加任意功能:

CAP SYL1 CHAR4 Bill noun
SYL3 CHAR9 responded non-noun
...