游泳 Ruta 输入类型 - html

UIMA Ruta input type - html

我有pdf和word文件需要作为Ruta的输入。我可以将它们转换成文本文件,但如果我这样做会丢失所有表格和格式。无论如何我可以在不丢失任何信息的情况下使用它们吗?

谢谢!

您需要一个能够将 pdf (/doc/docx) 转换为 html 的附加程序。主要有两种不同类型的 PDF 转换器:一种使用绝对位置来生成美观的 html,另一种仅依赖 html 元素和 css。对于加工表,我推荐后者。我个人使用商业解决方案,但也有很多好的开源软件,例如 pdf2htmlEX

如果您有 html,那么您可以应用 HtmlAnnotator 和 HtmlConverter 来获取带有 html 标签注释的纯文本,如 UIMA Ruta documentation

中所述