MarkMail 预览

MarkMail preview

任何人都可以分享 MarkLogic 在他们的 Markmail 附件软件中使用什么软件为附件生成预览图像吗?它似乎也可以很好地处理办公文件。我尝试将 OpenOffice 转换为 PDF,然后为 PDF 中的每个页面生成图像,但转换效果不佳,尤其是文档中嵌入的图像。

我正在尝试创建一个 CPF 任务,将文档(所有类型或最常用的类型)转换为单个页面的图像(如果存在)。 Office 文档,尤其是 Excel 和 PPT 证明很麻烦。我还想保留从文档中提取的文本有页码和其他内容,如标题、header、页脚等。所以在做片段时,我可以使用这些标签来突出显示(in-fact想做 markmail 做的事 :)).

任何建议都会很有帮助。

我们在 MarkMail.org 上所做的是使用外部 "headless" OpenOffice.org 进程将每个 Office 文件格式 "print" 转换为 PDF。然后我们使用 PDF2Image 从每个页面生成图像和缩略图。如果您在执行此步骤时遇到问题,可能是因为您使用的是 ImageMagick,我们发现它不如 PDF2Image 强大。

我们使用 MarkLogic 的内部 xdmp:pdf-convert 来捕获 PDF 每一页上的文本。我们将提取的文本与各种二进制文件的 URI 一起嵌入到电子邮件文档中以使其可搜索。

我们使用 Java 加载程序来驱动进程(以及相当复杂的 Java class 来驱动 OpenOffice.org)。我们注意到 OpenOffice.org 有时会自己卡住,所以我们还有一个外部监控进程,当发生这种情况时会启动 OOo。加载 OpenOffice.org 邮件列表是一项特殊的挑战,因为该列表中满是写着 "Hey the attached file causes OpenOffice.org big problems" 的人。是的。

我们没有使用 CPF。所有电子邮件都通过相同的 Java 管道加载,因此不需要。

我们了解到一些有趣的事情:现在 Java 加载程序 "pushes" 将文件 OpenOffice.org 进行转换。更好的方法是先加载邮件,然后让客户端进程轮询包含需要处理的 Office 文件的新邮件。拉式模型会使 OpenOffice.org 始终可用并变得不那么重要。它还可以在改进管道后更轻松地重新运行过去的处理,例如 OpenOffice.org 升级后。

总而言之,我们对这个系统非常满意。希望对你有帮助。