exist-db 如何访问 pdf

exist-db how to access a pdf

我相信这很简单...我只是无法理解这个... exist-db 文档在内容提取方面有点模糊...... http://exist-db.org/exist/apps/doc/contentextraction.

我有一个 pdf 文件，包含大约 162 张高分辨率图像（pdf 相当大......）但我不知道如何访问任何可能创建的......

请不要毁了我！我刚刚开始建立一个数据库（用于 Uni 的一个版本）我希望有一个传真版本（所以一个带有图像文件的标签和一个带有转录文本的标签）

我的目标是做一些类似于海德堡大学对 "Welsche Gast Digital" http://digi.ub.uni-heidelberg.de/diglit/cpg389/0190/image 所做的事情（选择的图像只是一个例子！） This pic 单击 faksimile 时，扫描打开，单击 Transkription 时，转录的文本打开！

我对 Xquery、Xpath 和大多数与 X 相关的东西还很陌生。我在 exist-db 中有一个 "working design" 放在一起，正在查看 TEI 以标记转录等，我担心我将不得不在这个问题上花很多时间...... （这不是为我做我的工作，只是为我指明正确的方向）

恐怕简短的回答就是不要。

在您的数据库中存储 pdf，然后尝试从中提取图像，这是一种灾难。相反，您应该使用源图像（不一定是从 pdf 中提取的），并将它们单独存储在一个集合中（例如 resources/img）。这些图像文件就是文档实际谈论的二进制资源。

您可能想查看 tei-publisher for creating digital edition in exist, especially this demo app 以了解如何呈现带有转录部分文本的高分辨率传真。恐怕它比在浏览器中打开 pdf 更复杂，但 Welsche Gast Digital

也是如此

exist-db 如何访问 pdf

exist-db how to access a pdf

exist-db

xquery-3.1