UIMA Ruta:让 HTMLAnnotator 注释更多标签
UIMA Ruta: Make HTMLAnnotator annotate more tags
我对 UIMA Ruta 比较陌生,我需要处理 HTML 文档。我已经有一个 ProcessHTML.ruta
脚本,它与文档中的基本相同(稍作调整):
ENGINE utils.HtmlAnnotator;
ENGINE utils.HtmlConverter;
ENGINE HtmlViewWriter;
TYPESYSTEM utils.HtmlTypeSystem;
TYPESYSTEM utils.SourceDocumentInformation;
Document{->CONFIGURE(HtmlAnnotator, "onlyContent"=true), EXEC(HtmlAnnotator, {TAG})};
Document { -> CONFIGURE(HtmlConverter, "inputView" = "_InitialView",
"outputView" = "plain", "expandOffsets"=false, "replaceLinebreaks"=true, "skipWhitespacs"=true, "linebreakReplacement"=" ", "processAll"=true),
EXEC(HtmlConverter)};
Document{ -> CONFIGURE(HtmlViewWriter, "inputView" = "plain",
"outputView" = "_InitialView", "output" = "../converted/"),
EXEC(HtmlViewWriter)};
我注意到我可能需要来自 HTML 源的布局信息来为我的下一个脚本提供当前不存在的布局信息。例如,文本通常用标签标记,但输出中没有 STRONG 注释。如果我理解正确,所有未在 HTMLTypeSystem 中实现的标签都使用默认 TAG 注释进行注释。
是否可以为要保留的特定 HTML 标签定义额外的注释?对此有一些配置还是我需要以某种方式扩展注释器?
将以下内容添加到 HTMLTypeSystem.xml
就成功了:
<typeDescription>
<name>org.apache.uima.ruta.type.html.STRONG</name>
<description></description>
<supertypeName>org.apache.uima.ruta.type.html.TAG</supertypeName>
</typeDescription>
(感谢一位想出这一点的同事)
我对 UIMA Ruta 比较陌生,我需要处理 HTML 文档。我已经有一个 ProcessHTML.ruta
脚本,它与文档中的基本相同(稍作调整):
ENGINE utils.HtmlAnnotator;
ENGINE utils.HtmlConverter;
ENGINE HtmlViewWriter;
TYPESYSTEM utils.HtmlTypeSystem;
TYPESYSTEM utils.SourceDocumentInformation;
Document{->CONFIGURE(HtmlAnnotator, "onlyContent"=true), EXEC(HtmlAnnotator, {TAG})};
Document { -> CONFIGURE(HtmlConverter, "inputView" = "_InitialView",
"outputView" = "plain", "expandOffsets"=false, "replaceLinebreaks"=true, "skipWhitespacs"=true, "linebreakReplacement"=" ", "processAll"=true),
EXEC(HtmlConverter)};
Document{ -> CONFIGURE(HtmlViewWriter, "inputView" = "plain",
"outputView" = "_InitialView", "output" = "../converted/"),
EXEC(HtmlViewWriter)};
我注意到我可能需要来自 HTML 源的布局信息来为我的下一个脚本提供当前不存在的布局信息。例如,文本通常用标签标记,但输出中没有 STRONG 注释。如果我理解正确,所有未在 HTMLTypeSystem 中实现的标签都使用默认 TAG 注释进行注释。
是否可以为要保留的特定 HTML 标签定义额外的注释?对此有一些配置还是我需要以某种方式扩展注释器?
将以下内容添加到 HTMLTypeSystem.xml
就成功了:
<typeDescription>
<name>org.apache.uima.ruta.type.html.STRONG</name>
<description></description>
<supertypeName>org.apache.uima.ruta.type.html.TAG</supertypeName>
</typeDescription>
(感谢一位想出这一点的同事)