UIMA Ruta:让 HTMLAnnotator 注释更多标签

UIMA Ruta: Make HTMLAnnotator annotate more tags

我对 UIMA Ruta 比较陌生,我需要处理 HTML 文档。我已经有一个 ProcessHTML.ruta 脚本,它与文档中的基本相同(稍作调整):

ENGINE utils.HtmlAnnotator;
ENGINE utils.HtmlConverter;
ENGINE HtmlViewWriter;
TYPESYSTEM utils.HtmlTypeSystem;
TYPESYSTEM utils.SourceDocumentInformation;

Document{->CONFIGURE(HtmlAnnotator, "onlyContent"=true), EXEC(HtmlAnnotator, {TAG})};

Document { -> CONFIGURE(HtmlConverter, "inputView" = "_InitialView",
    "outputView" = "plain", "expandOffsets"=false, "replaceLinebreaks"=true, "skipWhitespacs"=true, "linebreakReplacement"=" ", "processAll"=true),
      EXEC(HtmlConverter)};

Document{ -> CONFIGURE(HtmlViewWriter, "inputView" = "plain",
    "outputView" = "_InitialView", "output" = "../converted/"),
    EXEC(HtmlViewWriter)};

我注意到我可能需要来自 HTML 源的布局信息来为我的下一个脚本提供当前不存在的布局信息。例如,文本通常用标签标记,但输出中没有 STRONG 注释。如果我理解正确,所有未在 HTMLTypeSystem 中实现的标签都使用默认 TAG 注释进行注释。

是否可以为要保留的特定 HTML 标签定义额外的注释?对此有一些配置还是我需要以某种方式扩展注释器?

将以下内容添加到 HTMLTypeSystem.xml 就成功了:

<typeDescription>
    <name>org.apache.uima.ruta.type.html.STRONG</name>
    <description></description>
    <supertypeName>org.apache.uima.ruta.type.html.TAG</supertypeName>
</typeDescription>

(感谢一位想出这一点的同事)