远程监督:基于规则的标记方法?

Distant Supervision: a rule-based labelling approach?

我目前正在研究实体关系,我发现很多论文都实施了远程监督来标记数据。我对远程监督的理解是,我们有一个已建立的知识库 (KB),我们通过检查提取的实体对是否存在于 KB 中来做某种 "rule-based labeling"。如果实体对存在于 KB 中,则将其标记为正,否则将标记为负。

我的问题是:

  1. 我对远程监督的概念理解正确吗?
  2. 如果是,我不明白为什么我们要训练神经网络来对基于规则的系统进行分类?例如,如果将来我们得到包含实体的新句子,并且我们想检查它们之间是否有关系,我们为什么不回头参考 KB?为什么我们要训练实体关系?

谢谢

远程监督是使用基于规则的启发式方法来生成标记数据,生成的标记数据随后用于训练模型(通常是神经网络)。

知识库 (KB) 可用作基于规则的启发式方法。正如 Nathan McCoy 所说,知识库通常是不完整的,模型将使您能够检测知识库中不存在的实体之间的关系。

Snorkel 是为远程监督开发的工具示例