从 ODP 或 ODF 文件中提取结构数据

Extracting structural data from ODP or ODF files

我正在尝试提取 ODP(OpenDocument 演示文稿)文件中的信息层次结构:标题、副标题、body 文本...

您知道可以完成这项工作的任何工具或技术吗?

否则,是否有解析这些 ODP 文档以提取样式信息的方法? 所以我以后可以从它的样式中推断出文档结构。

恐怕 ODP 文件中 XML 文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个 XML 文件。

由于我找不到任何能够从演示文件中提取大纲、标题、文本...的工具,因此我创建了 Exide,一个支持 ODP、PPTX 的开源 API和 beamer 文件,它启用:

  • 幻灯片标题提取
  • 幻灯片body文本提取
  • Named-entities识别(不准确)
  • 强调文字识别
  • URL 识别
  • 结构检测和轮廓生成
  • 识别以下 silde 类型:
    • 简介
    • 结论
    • 定义
    • 例子
    • Table 个内容
    • 参考资料
    • 节header

有关详细信息,请查看 the github page of the project