什么是远程监督?

what is distant supervision?

根据我的理解,Distant Supervision 是指定段落中的单个单词(通常是句子)试图传达的概念的过程。

例如,数据库维护结构化关系concerns( NLP, this sentence).

我们的远程监督系统会将句子作为输入:"This is a sentence about NLP."

基于这个句子,它将识别实体,因为作为预处理步骤,该句子将通过命名实体识别器 NLP & this sentence

因为我们的数据库中有 NLPthis sentence 通过 concern(s) 的键相关,所以它会将输入句子识别为表达关系 Concerns(NLP, this sentence)

我的问题有两个:

1) 那有什么用?是不是稍后我们的系统可能会看到 "the wild" 中的一个句子,例如 That sentence is about OPP 并意识到它看到了与之前相似的东西,从而意识到这种新颖的关系 concerns(OPP, that sentence).,仅基于单词/单个标记?

2) 是否考虑到句子的实际用词?例如,动词 'is' 和副词 'about',意识到(通过 WordNet 或其他一些下位词系统)这在某种程度上类似于高阶概念 "concerns"?

有没有人有一些代码用于生成我可以查看的远程监督系统,即交​​叉引用 KB(例如 Freebase)和语料库(例如 NYTimes)并产生远程监督的系统数据库?我认为这将大大有助于澄清我对远程监督的概念。

RE 1) 是的,这是完全正确的。最后,我们想要的是一个分类器,它以输入文本和文本中提到的一对实体为输入,并告诉我们该句子中这些实体之间的关系。远程监督是使用来自已知知识库的 "distant supervision" 来模拟此训练数据的一种方式。但是,最终目标与大多数机器学习任务相同:泛化到新句子。

RE 2) 当然可以!远程监督仅适用于训练数据的生成方式 [1]。一旦你假设远程监督,你剩下的就是一个(句子,relation_for_sentence)对的语料库,然后你提取句子中所有常见的 NLP 特征。

[1] 初步估计——有 "distantly supervised" 模型(如 MultiR 和 MIML-RE)不直接生成假训练数据,而是将监督间接纳入训练过程本身.但是,即使在这些中,潜在变量模型中也有一个因素相当于每个句子的分类,只是输出变量是潜在的而不是像香草远程监督那样天真"observed"。

根据我现在的理解——远程监督的真正价值在于我们可以用它来标注一个大的语料库,而不必手动考虑每个句子——因为这在人时方面是非常昂贵的——所以在end 一些公认的句子中的关系将是错误的-但它会是-希望 "pretty good"...这在某些应用程序中很有用,例如...学者相互竞争以尝试在这个愚蠢的任务和...其他事情,例如...(欢迎提供示例)