关系提取的注释器

Annotator for Relationship Extraction

我在文本文件中有一组 url。对于该文本文件中的每个 url,我想标记该 url 中包含的文本中的实体和关系。

我知道可以执行实体标记的实体标记器,例如 Stanford NER、NLTK 和 GATE。但是,我对关系抽取更感兴趣。

为了提取关系,我正在考虑对那些 url 中包含的文本进行注释以用于训练目的。为此,我不想做手动注释。我可以写一些正则表达式来提取我想要的关系,但是很难扩展。

有什么工具可以让我指定要注释的内容吗?

例如:

" Rob is working as the Director of ABC organization. He graduated from XYZ University "

在这里,我想提取 affiliations 关系,所以凭直觉我想注释描述 working 等从属关系的词, 毕业.

编辑: "a set of URLs in the text file",我的意思是我在该文本文件中有大约 200 个指向某些网页的链接,每个网页都包含一些文本。我想分析(注释)该文本。

GATE 中没有将参数配对和创建实例的 PR 为你。因此,您必须创建与您的问题相关的实例。

您可以:

  • 编写自定义 PR
  • 或者用 Java RHS
  • 写一些 JAPE

您可以将语料库拆分为训练数据集和测试数据集。

您可以使用有关关系抽取的 GATE 培训课程,其中包含您需要的所有内容: