从 PDF 文件中提取页数

Extract number of pages from PDF files

marklogic

我们正在尝试使用 xdmp:document-filter 函数来提取有关 PDF 文件的元数据，特别是我们想知道 PDF 中的页数。目前 MarkLogic 似乎无法检索 PDF（也不是 Word 文档）的此信息，但能够获取 PowerPoint 的幻灯片数量。也许有隐藏选项？

https://docs.marklogic.com/guide/search-dev/binary-document-metadata#id_98155 https://docs.marklogic.com/xdmp:document-filter

在某些阶段，我们可能还想从音频文件 (MP3) 中提取元数据，例如以秒为单位的持续时间和 stereo/mono。这有可能吗？

请注意，在从文件中提取时，Marklogic 中有两种方法：

xdmp:document-filter() 正如您已经介绍的那样。
提供 xdmp:xxx-convert() 函数的永久捆绑文档转换库

对于第二个选项，有一个完全不同的引擎，其中一个选项是每页生成一个 xhtml 文档。我建议您使用 xdmp:pdf-convert()

探索选项

这可能会在系统中创建多个文档时产生意想不到的效果，但一旦您完成并尝试了各种选项，它仍然可以达到您的目的。返回的第一个节点是清单，因此如果您按页提取，它可能有足够的信息来计算页数。诀窍是在不提取不需要的项目的情况下获得所需的信息。如果这有帮助，那么您还可以探索同一系列中的其他转换函数，例如 word 的转换函数。