Tesseract-ocr 在与 alfresco 5 集成后无法正常工作。0.d
Tesseract-ocr is not working properly after integrating with alfresco 5.0.d
我在Alfresco 5中集成了Tesseract-ocr。0.d,我的需求是将PDF文件数据转换成文本格式。
而且它适用于小文件。
但是如果我要上传更大的文件,比如超过 50 MB,
在这种情况下,它会给出以下异常,并且整个 pdf 文件不会转换为文本文件。
只有一些起始页正在转换为文本格式。
请参考以下日志
java.net.SocketTimeoutException: Read timed out
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
at java.net.SocketInputStream.read(SocketInputStream.java:170)
at java.net.SocketInputStream.read(SocketInputStream.java:141)
at sun.security.ssl.InputRecord.readFully(InputRecord.java:465)
at sun.security.ssl.InputRecord.read(InputRecord.java:503)
有没有人遇到同样的问题,请帮帮我。
提前致谢。
我有点惊讶。 Alfresco 已经包含负责执行 PDF --> TXT 转换的 PDFBox。所以你不需要使用 Tesseract。
连你的踪迹都显得有些奇怪。要查看变压器发生了什么,请设置 log4j.logger.org.alfresco.repo.content.transform.TransformerDebug
和 log4j.logger.org.alfresco.repo.content.transform
等于
至 DEBUG
.
您可能需要增加 pdf 到文本的内容转换大小
在露天-global.properties 文件
您可以使用这些属性为转换指定大小
如果您使用的是 OOoDirect
content.transformer.complex.OpenOffice.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120
如果您正在使用 OOoJodConverter
content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120
参考这个社区问题
https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b
我在Alfresco 5中集成了Tesseract-ocr。0.d,我的需求是将PDF文件数据转换成文本格式。
而且它适用于小文件。
但是如果我要上传更大的文件,比如超过 50 MB,
在这种情况下,它会给出以下异常,并且整个 pdf 文件不会转换为文本文件。 只有一些起始页正在转换为文本格式。
请参考以下日志
java.net.SocketTimeoutException: Read timed out
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
at java.net.SocketInputStream.read(SocketInputStream.java:170)
at java.net.SocketInputStream.read(SocketInputStream.java:141)
at sun.security.ssl.InputRecord.readFully(InputRecord.java:465)
at sun.security.ssl.InputRecord.read(InputRecord.java:503)
有没有人遇到同样的问题,请帮帮我。
提前致谢。
我有点惊讶。 Alfresco 已经包含负责执行 PDF --> TXT 转换的 PDFBox。所以你不需要使用 Tesseract。
连你的踪迹都显得有些奇怪。要查看变压器发生了什么,请设置 log4j.logger.org.alfresco.repo.content.transform.TransformerDebug
和 log4j.logger.org.alfresco.repo.content.transform
等于
至 DEBUG
.
您可能需要增加 pdf 到文本的内容转换大小 在露天-global.properties 文件
您可以使用这些属性为转换指定大小
如果您使用的是 OOoDirect
content.transformer.complex.OpenOffice.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120
如果您正在使用 OOoJodConverter
content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120
参考这个社区问题 https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b