在不属于任何标签的文本上训练 Spacy TextCategorizer
Train Spacy TextCategorizer on text that belongs to no label
我开始尝试使用 Spacy 的 TextCategorizer 并能够训练一个包含数百个示例和每个示例的专属标签的模型。我的想法是将此模型应用于文本块(逐句或逐段)并为每个块获取标签。但是很多块实际上应该没有标签,因为它们不属于任何类别。我有两个想法:
- 添加一个附加标签
other
并使用该标签训练不属于任何其他类别的示例。
- 对于不属于任何其他类别的示例,将所有标签的分数设置为
0.0
。
或者有其他的方法吗?这是 TextCategorizer 可以做的事情,还是我可以尝试使用其他可能效果更好的模型?
听起来你应该使用即将在 3.1 中发布的 SpanCategorizer。关于您的其他方法...
Add an additional label other and train examples that don't belong to any other category with this label.
这很好,只是“其他”类别往往难以学习。
Set the scores of all label to 0.0 for the examples that don't belong to any other category.
我很确定这行不通。 textcat 并非旨在以这种方式使用,即使您在训练中没有出现错误,我也不认为该模型能够有效地进行训练。
我开始尝试使用 Spacy 的 TextCategorizer 并能够训练一个包含数百个示例和每个示例的专属标签的模型。我的想法是将此模型应用于文本块(逐句或逐段)并为每个块获取标签。但是很多块实际上应该没有标签,因为它们不属于任何类别。我有两个想法:
- 添加一个附加标签
other
并使用该标签训练不属于任何其他类别的示例。 - 对于不属于任何其他类别的示例,将所有标签的分数设置为
0.0
。
或者有其他的方法吗?这是 TextCategorizer 可以做的事情,还是我可以尝试使用其他可能效果更好的模型?
听起来你应该使用即将在 3.1 中发布的 SpanCategorizer。关于您的其他方法...
Add an additional label other and train examples that don't belong to any other category with this label.
这很好,只是“其他”类别往往难以学习。
Set the scores of all label to 0.0 for the examples that don't belong to any other category.
我很确定这行不通。 textcat 并非旨在以这种方式使用,即使您在训练中没有出现错误,我也不认为该模型能够有效地进行训练。