SWIM RUTA:斜体
UIMA RUTA: Italics
有谁知道如何搜索文本中所有斜体字词?并扩展它,搜索斜体(或不斜体)的特定单词?
例如,给定 "I am certain that I am not mistaken",我想提取 certain
,或者提取所有非斜体的 am
?
假设格式信息存在于 CAS 中,例如,通过应用 Ruta 提供的 HtmlAnnotator(结合 HtmlConverter),规则可能看起来像(如问题评论中所示):
I{-> MyType};
SW.ct=="am"{-PARTOF(I) -> MyType};
您可能需要导入Ruta的HtmlTypeSystem。
免责声明:我是 UIMA Ruta 的开发者
有谁知道如何搜索文本中所有斜体字词?并扩展它,搜索斜体(或不斜体)的特定单词?
例如,给定 "I am certain that I am not mistaken",我想提取 certain
,或者提取所有非斜体的 am
?
假设格式信息存在于 CAS 中,例如,通过应用 Ruta 提供的 HtmlAnnotator(结合 HtmlConverter),规则可能看起来像(如问题评论中所示):
I{-> MyType};
SW.ct=="am"{-PARTOF(I) -> MyType};
您可能需要导入Ruta的HtmlTypeSystem。
免责声明:我是 UIMA Ruta 的开发者