exist-db 如何访问 pdf

exist-db how to access a pdf

我相信这很简单...我只是无法理解这个... exist-db 文档在内容提取方面有点模糊...... http://exist-db.org/exist/apps/doc/contentextraction.

我有一个 pdf 文件,包含大约 162 张高分辨率图像(pdf 相当大......)但我不知道如何访问任何可能创建的......

请不要毁了我!我刚刚开始建立一个数据库(用于 Uni 的一个版本)我希望有一个传真版本(所以一个带有图像文件的标签和一个带有转录文本的标签)

我的目标是做一些类似于海德堡大学对 "Welsche Gast Digital" http://digi.ub.uni-heidelberg.de/diglit/cpg389/0190/image 所做的事情 (选择的图像只是一个例子!) This pic 单击 faksimile 时,扫描打开,单击 Transkription 时,转录的文本打开!

我对 Xquery、Xpath 和大多数与 X 相关的东西还很陌生。我在 exist-db 中有一个 "working design" 放在一起,正在查看 TEI 以标记转录等,我担心我将不得不在这个问题上花很多时间...... (这不是为我做我的工作,只是为我指明正确的方向)

恐怕简短的回答就是不要。

在您的数据库中存储 pdf,然后尝试从中提取图像,这是一种灾难。相反,您应该使用源图像(不一定是从 pdf 中提取的),并将它们单独存储在一个集合中(例如 resources/img)。这些图像文件就是文档实际谈论的二进制资源。

您可能想查看 tei-publisher for creating digital edition in exist, especially this demo app 以了解如何呈现带有转录部分文本的高分辨率传真。恐怕它比在浏览器中打开 pdf 更复杂,但 Welsche Gast Digital

也是如此