从 PDF 文件中提取页数

Extract number of pages from PDF files

我们正在尝试使用 xdmp:document-filter 函数来提取有关 PDF 文件的元数据,特别是我们想知道 PDF 中的页数。目前 MarkLogic 似乎无法检索 PDF(也不是 Word 文档)的此信息,但能够获取 PowerPoint 的幻灯片数量。也许有隐藏选项?

https://docs.marklogic.com/guide/search-dev/binary-document-metadata#id_98155 https://docs.marklogic.com/xdmp:document-filter

在某些阶段,我们可能还想从音频文件 (MP3) 中提取元数据,例如以秒为单位的持续时间和 stereo/mono。这有可能吗?

请注意,在从文件中提取时,Marklogic 中有两种方法:

  1. xdmp:document-filter() 正如您已经介绍的那样。

  2. 提供 xdmp:xxx-convert() 函数的永久捆绑文档转换库

对于第二个选项,有一个完全不同的引擎,其中一个选项是每页生成一个 xhtml 文档。我建议您使用 xdmp:pdf-convert()

探索选项

这可能会在系统中创建多个文档时产生意想不到的效果,但一旦您完成并尝试了各种选项,它仍然可以达到您的目的。返回的第一个节点是清单,因此如果您按页提取,它可能有足够的信息来计算页数。诀窍是在不提取不需要的项目的情况下获得所需的信息。如果这有帮助,那么您还可以探索同一系列中的其他转换函数,例如 word 的转换函数。