按顺序标记不同长度的单词

tagging words with different lengths in order

您好,我正在尝试按顺序标记句子中的单词。 例如,(我的初始方法)

Sentence: Work across a wide range of related areas
Label:    Tag    O    O O    O     O  Tag     Tag

但现在我需要它是这样的,它可以将 2 个单词标记为关键字并一起标记:

Sentence: Work across a wide range of related areas
Label:    Tag    O    O O    O     O  Tag     

我有一个不同长度的关键字列表及其标签。我怎样才能按照我需要的方式标记句子顺序?

看起来您正在寻找的是 BIO-tagging 系统(如果我理解正确的话,您正在寻找手动标记语料库中的解决方案)。

BIO 表示以下内容:B - 块的开始,I - 块的内部,O - 是块外的标记。

步骤 1

Sentence: Work across a wide range of related areas
Tag:       B     O    O   O    O    O   B        I
Label:  Label_1  O    O   O    O    O   Label_2  Label_2 

步骤 2

Sentence: Work across a wide range of related areas
Label:  B-Label_1  O    O   O    O    O   B-Label_2  I-Label_2 

标记语料库后,您将对齐句子列表(列表#1)和标签+标签组合(列表#2): BIO 标签将作为前缀添加到您的标签中,例如 [...related, areas] + [... B-Label_2, I-Label_2]。 这样你就可以将 [B-Label_2, I-Label_2] 组合成一个 Label_2 因为你有一个 BI 模式。您只需要在最后去掉前缀并执行许多其他中间步骤和 post-processing.