带全文索引的文档存储 - PDF

Document Storage with Full Text Indexing - PDF

我们已经构建了一个应用程序来索引提交的多种格式的文档,从 Microsoft Office 到文本。问题是,对于 pdf,我们经常求助于转换为 Word,然后进行索引。这是一个缓慢的过程并且有问题,特别是因为它不处理需要 OCR 组件的基于图像的 pdf。

这个问题的重点是为我的用户提供 pdf 文档库的全文搜索的解决方案。如果有类似的解决方案,则首选能够处理 Microsoft Office 格式的解决方案。

目前,我的应用程序使用带有 MySQL 数据库的 J2EE 平台。如果它提供了显着的好处,我愿意切换到非关系数据库。

我对其他想法持开放态度,但这是我在研究中找到的最佳解决方案。

我研究了很多工具,最终在 Amazon Cloud Search 和 Google Drive SDK 等工具之间进行了权衡。两者都具有强大的索引、标记和自定义属性功能,可实现强大的全文搜索。

Amazon Cloud Search unfortunately, out of the box, does not provide PDF indexing (source) and even with workarounds such as using the experimental command line tool (documented here) 从输入文件生成 SDF,然后通过 API 提交,然后我将不得不集成我自己的或其他第三方 OCR 工具。

Google 驱动 SDK/API while there is a significant downside, requiring that each user has a Google account (by sharing account across users I would then have to download files to serve them, since file permissions couldn't be worked around easily via a URI), this platform meets and exceeds my desired functionality. All one would need to do when uploading is to set the OCR parameter 为真。