按顺序标记不同长度的单词
tagging words with different lengths in order
您好,我正在尝试按顺序标记句子中的单词。
例如,(我的初始方法)
Sentence: Work across a wide range of related areas
Label: Tag O O O O O Tag Tag
但现在我需要它是这样的,它可以将 2 个单词标记为关键字并一起标记:
Sentence: Work across a wide range of related areas
Label: Tag O O O O O Tag
我有一个不同长度的关键字列表及其标签。我怎样才能按照我需要的方式标记句子顺序?
看起来您正在寻找的是 BIO-tagging 系统(如果我理解正确的话,您正在寻找手动标记语料库中的解决方案)。
BIO 表示以下内容:B - 块的开始,I - 块的内部,O - 是块外的标记。
步骤 1
Sentence: Work across a wide range of related areas
Tag: B O O O O O B I
Label: Label_1 O O O O O Label_2 Label_2
步骤 2
Sentence: Work across a wide range of related areas
Label: B-Label_1 O O O O O B-Label_2 I-Label_2
标记语料库后,您将对齐句子列表(列表#1)和标签+标签组合(列表#2):
BIO 标签将作为前缀添加到您的标签中,例如 [...related, areas] + [... B-Label_2, I-Label_2]。
这样你就可以将 [B-Label_2, I-Label_2] 组合成一个 Label_2 因为你有一个 BI 模式。您只需要在最后去掉前缀并执行许多其他中间步骤和 post-processing.
您好,我正在尝试按顺序标记句子中的单词。 例如,(我的初始方法)
Sentence: Work across a wide range of related areas
Label: Tag O O O O O Tag Tag
但现在我需要它是这样的,它可以将 2 个单词标记为关键字并一起标记:
Sentence: Work across a wide range of related areas
Label: Tag O O O O O Tag
我有一个不同长度的关键字列表及其标签。我怎样才能按照我需要的方式标记句子顺序?
看起来您正在寻找的是 BIO-tagging 系统(如果我理解正确的话,您正在寻找手动标记语料库中的解决方案)。
BIO 表示以下内容:B - 块的开始,I - 块的内部,O - 是块外的标记。
步骤 1
Sentence: Work across a wide range of related areas
Tag: B O O O O O B I
Label: Label_1 O O O O O Label_2 Label_2
步骤 2
Sentence: Work across a wide range of related areas
Label: B-Label_1 O O O O O B-Label_2 I-Label_2
标记语料库后,您将对齐句子列表(列表#1)和标签+标签组合(列表#2): BIO 标签将作为前缀添加到您的标签中,例如 [...related, areas] + [... B-Label_2, I-Label_2]。 这样你就可以将 [B-Label_2, I-Label_2] 组合成一个 Label_2 因为你有一个 BI 模式。您只需要在最后去掉前缀并执行许多其他中间步骤和 post-processing.