从 ODP 或 ODF 文件中提取结构数据
Extracting structural data from ODP or ODF files
我正在尝试提取 ODP(OpenDocument 演示文稿)文件中的信息层次结构:标题、副标题、body 文本...
您知道可以完成这项工作的任何工具或技术吗?
否则,是否有解析这些 ODP 文档以提取样式信息的方法?
所以我以后可以从它的样式中推断出文档结构。
恐怕 ODP 文件中 XML 文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个 XML 文件。
由于我找不到任何能够从演示文件中提取大纲、标题、文本...的工具,因此我创建了 Exide,一个支持 ODP、PPTX 的开源 API和 beamer 文件,它启用:
- 幻灯片标题提取
- 幻灯片body文本提取
- Named-entities识别(不准确)
- 强调文字识别
- URL 识别
- 结构检测和轮廓生成
- 识别以下 silde 类型:
- 简介
- 结论
- 定义
- 例子
- Table 个内容
- 参考资料
- 节header
有关详细信息,请查看 the github page of the project。
我正在尝试提取 ODP(OpenDocument 演示文稿)文件中的信息层次结构:标题、副标题、body 文本...
您知道可以完成这项工作的任何工具或技术吗?
否则,是否有解析这些 ODP 文档以提取样式信息的方法? 所以我以后可以从它的样式中推断出文档结构。
恐怕 ODP 文件中 XML 文件的结构可能取决于软件或版本。因此,我宁愿找到一个高级解决方案,也不愿直接解析这个 XML 文件。
由于我找不到任何能够从演示文件中提取大纲、标题、文本...的工具,因此我创建了 Exide,一个支持 ODP、PPTX 的开源 API和 beamer 文件,它启用:
- 幻灯片标题提取
- 幻灯片body文本提取
- Named-entities识别(不准确)
- 强调文字识别
- URL 识别
- 结构检测和轮廓生成
- 识别以下 silde 类型:
- 简介
- 结论
- 定义
- 例子
- Table 个内容
- 参考资料
- 节header
有关详细信息,请查看 the github page of the project。