如果我的 Snorkel 标签函数对开发集的覆盖率非常低怎么办?

What if my Snorkel labeling function has a very low coverage over a development set?

我正在尝试使用 Snorkel 标记跨度识别数据集,目前正处于改进标记功能的阶段。其中一个 LF 的覆盖率相当低,因为它只标记了实体跨度之一的子类。低覆盖率标注函数对最终下游跨度识别模型有什么影响?

即使标记函数的覆盖率很低,它也可能比它标记的 class 具有更高的经验准确性。根据来自 Snorkel co-founder Paroma Verma 的“改善标签功能的最佳实践”的 this 视频,不应丢弃覆盖率低但经验准确度高的 Snorkel LF。