什么是远程监督？

what is distant supervision?

根据我的理解，Distant Supervision 是指定段落中的单个单词（通常是句子）试图传达的概念的过程。

例如，数据库维护结构化关系concerns( NLP, this sentence).

我们的远程监督系统会将句子作为输入："This is a sentence about NLP."

基于这个句子，它将识别实体，因为作为预处理步骤，该句子将通过命名实体识别器 NLP & this sentence。

因为我们的数据库中有 NLP 和 this sentence 通过 concern(s) 的键相关，所以它会将输入句子识别为表达关系 Concerns(NLP, this sentence)。

我的问题有两个：

1) 那有什么用？是不是稍后我们的系统可能会看到 "the wild" 中的一个句子，例如 That sentence is about OPP 并意识到它看到了与之前相似的东西，从而意识到这种新颖的关系 concerns(OPP, that sentence).，仅基于单词/单个标记？

2) 是否考虑到句子的实际用词？例如，动词 'is' 和副词 'about'，意识到（通过 WordNet 或其他一些下位词系统）这在某种程度上类似于高阶概念 "concerns"?

有没有人有一些代码用于生成我可以查看的远程监督系统，即交叉引用 KB（例如 Freebase）和语料库（例如 NYTimes）并产生远程监督的系统数据库？我认为这将大大有助于澄清我对远程监督的概念。

RE 1) 是的，这是完全正确的。最后，我们想要的是一个分类器，它以输入文本和文本中提到的一对实体为输入，并告诉我们该句子中这些实体之间的关系。远程监督是使用来自已知知识库的 "distant supervision" 来模拟此训练数据的一种方式。但是，最终目标与大多数机器学习任务相同：泛化到新句子。

RE 2) 当然可以！远程监督仅适用于训练数据的生成方式 [1]。一旦你假设远程监督，你剩下的就是一个（句子，relation_for_sentence）对的语料库，然后你提取句子中所有常见的 NLP 特征。

[1] 初步估计——有 "distantly supervised" 模型（如 MultiR 和 MIML-RE）不直接生成假训练数据，而是将监督间接纳入训练过程本身.但是，即使在这些中，潜在变量模型中也有一个因素相当于每个句子的分类，只是输出变量是潜在的而不是像香草远程监督那样天真"observed"。

根据我现在的理解——远程监督的真正价值在于我们可以用它来标注一个大的语料库，而不必手动考虑每个句子——因为这在人时方面是非常昂贵的——所以在end 一些公认的句子中的关系将是错误的-但它会是-希望 "pretty good"...这在某些应用程序中很有用，例如...学者相互竞争以尝试在这个愚蠢的任务和...其他事情，例如...（欢迎提供示例）

什么是远程监督？

what is distant supervision?

nlp

stanford-nlp

unsupervised-learning

supervised-learning