如何将 WebAnno 名称实体注释转换为在 OpenNLP 中使用?
How to convert WebAnno Name Entity annotation to use in OpenNLP?
基于这个问题我需要导出XMI格式并使用DKPro Core转成Brat格式:
https://github.com/webanno/webanno/issues/328
我试过这段代码但没有成功
public void convert() throws Exception {
SimplePipeline.runPipeline(CollectionReaderFactory
.createReaderDescription(XmiReader.class, XmiReader.PARAM_SOURCE_LOCATION, "/tmp", XmiReader.PARAM_PATTERNS,
XmiReader.INCLUDE_PREFIX + "*.xmi"), AnalysisEngineFactory
.createEngineDescription(BratWriter.class, BratWriter.PARAM_TARGET_LOCATION, "/tmp"));
}
brat 格式的方言 可能与 DKPro Core BratWriter 生成的内容和 OpenNLP 期望的有所不同 - brat 文件格式非常灵活。
如果您使用的是 WebAnno 中内置的 Named Entity 层,那么我会建议另一种方法:
- 继续使用 XMI 导出
- 使用 DKPro Core 1.9.0-SNAPSHOT 加载 XMI 并将其提供给
OpenNlpNamedEntityRecognizerTrainer
组件
这应该可以避免额外的转换步骤。
披露:我是 WebAnno 和 DKPro 核心开发人员。
无效的建议:
- 在 WebAnno
中导出为 CoNLL 2002
- OpenNLP supports training the NER tool directly from CoNLL 2002 files.
- =>
Conll02NameSampleStream
仅支持某些语言和命名实体类型... 叹息
基于这个问题我需要导出XMI格式并使用DKPro Core转成Brat格式:
https://github.com/webanno/webanno/issues/328
我试过这段代码但没有成功
public void convert() throws Exception {
SimplePipeline.runPipeline(CollectionReaderFactory
.createReaderDescription(XmiReader.class, XmiReader.PARAM_SOURCE_LOCATION, "/tmp", XmiReader.PARAM_PATTERNS,
XmiReader.INCLUDE_PREFIX + "*.xmi"), AnalysisEngineFactory
.createEngineDescription(BratWriter.class, BratWriter.PARAM_TARGET_LOCATION, "/tmp"));
}
brat 格式的方言 可能与 DKPro Core BratWriter 生成的内容和 OpenNLP 期望的有所不同 - brat 文件格式非常灵活。
如果您使用的是 WebAnno 中内置的 Named Entity 层,那么我会建议另一种方法:
- 继续使用 XMI 导出
- 使用 DKPro Core 1.9.0-SNAPSHOT 加载 XMI 并将其提供给
OpenNlpNamedEntityRecognizerTrainer
组件
这应该可以避免额外的转换步骤。
披露:我是 WebAnno 和 DKPro 核心开发人员。
无效的建议:
- 在 WebAnno 中导出为
- OpenNLP supports training the NER tool directly from CoNLL 2002 files.
- =>
Conll02NameSampleStream
仅支持某些语言和命名实体类型... 叹息
CoNLL 2002