Tesseract-ocr 在与 alfresco 5 集成后无法正常工作。0.d

Tesseract-ocr is not working properly after integrating with alfresco 5.0.d

我在Alfresco 5中集成了Tesseract-ocr。0.d,我的需求是将PDF文件数据转换成文本格式。

而且它适用于小文件。

但是如果我要上传更大的文件,比如超过 50 MB,

在这种情况下,它会给出以下异常,并且整个 pdf 文件不会转换为文本文件。 只有一些起始页正在转换为文本格式。

请参考以下日志

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
    at java.net.SocketInputStream.read(SocketInputStream.java:170)
    at java.net.SocketInputStream.read(SocketInputStream.java:141)
    at sun.security.ssl.InputRecord.readFully(InputRecord.java:465)
    at sun.security.ssl.InputRecord.read(InputRecord.java:503)

有没有人遇到同样的问题,请帮帮我。

提前致谢。

我有点惊讶。 Alfresco 已经包含负责执行 PDF --> TXT 转换的 PDFBox。所以你不需要使用 Tesseract。 连你的踪迹都显得有些奇怪。要查看变压器发生了什么,请设置 log4j.logger.org.alfresco.repo.content.transform.TransformerDebuglog4j.logger.org.alfresco.repo.content.transform 等于 至 DEBUG.

您可能需要增加 pdf 到文本的内容转换大小 在露天-global.properties 文件

您可以使用这些属性为转换指定大小

如果您使用的是 OOoDirect

content.transformer.complex.OpenOffice.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

如果您正在使用 OOoJodConverter

content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

参考这个社区问题 https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b

https://community.alfresco.com/thread/203406-how-to-config-alfresco-documents-preview-size-limit-on-42d

https://injustfiveminutes.wordpress.com/2012/11/28/docx-pptx-document-preview-fails-on-alfresco-4-2-c/