从 ODP 或 ODF 文件中提取结构数据

Extracting structural data from ODP or ODF files

我正在尝试提取 ODP（OpenDocument 演示文稿）文件中的信息层次结构：标题、副标题、body 文本...

您知道可以完成这项工作的任何工具或技术吗？

否则，是否有解析这些 ODP 文档以提取样式信息的方法？所以我以后可以从它的样式中推断出文档结构。

恐怕 ODP 文件中 XML 文件的结构可能取决于软件或版本。因此，我宁愿找到一个高级解决方案，也不愿直接解析这个 XML 文件。

由于我找不到任何能够从演示文件中提取大纲、标题、文本...的工具，因此我创建了 Exide，一个支持 ODP、PPTX 的开源 API和 beamer 文件，它启用：

幻灯片标题提取
幻灯片body文本提取
Named-entities识别（不准确）
强调文字识别
URL 识别
结构检测和轮廓生成
识别以下 silde 类型：
- 简介
- 结论
- 定义
- 例子
- Table 个内容
- 参考资料
- 节header

有关详细信息，请查看 the github page of the project。