SWIM RUTA:斜体

UIMA RUTA: Italics

有谁知道如何搜索文本中所有斜体字词?并扩展它,搜索斜体(或不斜体)的特定单词?

例如,给定 "I am certain that I am not mistaken",我想提取 certain,或者提取所有非斜体的 am

假设格式信息存在于 CAS 中,例如,通过应用 Ruta 提供的 HtmlAnnotator(结合 HtmlConverter),规则可能看起来像(如问题评论中所示):

I{-> MyType};
SW.ct=="am"{-PARTOF(I) -> MyType};

您可能需要导入Ruta的HtmlTypeSystem。

免责声明:我是 UIMA Ruta 的开发者