在 GATE 中解析字体样式或段落块

Parsing either font style or block of paragraph in GATE

我有一个word文档。我需要使用 GATE 匹配它的特定 table 部分或标题部分。我想是否有任何步骤可以让我们首先检查标题的任何字体大小或字体样式,然后匹配其余内容,直到重复下一个标题模式。

GATEMS Word 文档的支持有限 Apache TikaApache POI 库。我不知道有什么免费的替代品...我们公司为此目的开发了自己的插件(gate.DocumentFormat),但目前对外不可用。

您可以尝试通过其他工具(例如直接使用 MS Word , OpenOffice, docx4j 或其他 - 尝试 google docx to html -- 你会看到很多结果)然后在 GATE 中处理 HTML 文档。您将看到 Original markups 注释集中所有可用的格式。