使用 pypdfocr 在 Alfresco 上进行 OCR 文件
OCR files on Alfresco using pypdfocr
我无法使用 pypdfocr 在 Alfresco 上对文件进行 OCR。
大家好,我刚开始使用 Alfresco,但在 Alfresco 中配置和使用 pypdfocr 时遇到了一些困难。
我在 Ubunto 18.04.5 LTS 上安装了 Alfresco,使用的是:
wget https://download.alfresco.com/release/community/201707-build-00028/alfresco-community-installer-201707-linux-x64.bin
我已经完成了所有必要的配置,在各自的文件夹中添加了文件 repo.jar 和 share.jar:
/opt/alfresco-community/modules/platform/simple-ocr-repo-2.3.1.jar
/opt/alfresco-community/modules/share/simple-ocr-share-2.3.1.jar
我在露天添加了属性-global.properties:
# PYPDFOCR
ocr.command = /opt/alfresco-community/scripts/ocr.sh
ocr.output.verbose = true
ocr.output.file.prefix.command =
ocr.extra.commands = -v -l por
ocr.server.os = linux
我创建了上面代码中调用的脚本:
#!/usr/bin/env bash
# set -o xtrace # Uncomment for debugging / troubleshooting
array = ("$ @")
unset "array [$ {# array [@]} - 1]"
/usr/local/bin/pypdfocr "$ {array [@]}"
我安装了这样的依赖项:
apt 安装 gcc libjpeg-dev minizip zlib1g-dev python-dev
但是,当我尝试在 Alfresco 中执行 OCR 时,我在 /tomcat/logs/:
中收到以下消息
catalina.out
任何帮助将不胜感激
**** 我尝试通过安装更多依赖项来解决,但是没有用:
apt-get install wget gcc gcc-c ++ make autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel ocaml ImageMagick ImageMagick-devel
我收到以下消息:
E: Unable to locate package gcc-c +
E: Couldn't find any package by regex 'gcc-c +'
E: Unable to locate package libjpeg-devel
E: Unable to locate package libpng-devel
E: Unable to locate package libtiff-devel
E: Unable to locate package zlib-devel
E: Unable to locate package ImageMagick
E: Unable to locate package ImageMagick-devel
看来 ImageMagick and/or poppler-utils 需要安装。
要安装 ImageMagick:https://www.tutorialspoint.com/how-to-install-imagemagick-on-ubuntu
安装 poppler-utils: sudo apt-get install -y poppler-utils
注意:您需要更多依赖项才能使此 ocr 模块正常工作。具体如下:
Tesseract 和 Leptonica:https://medium.com/@jjagadish.in/install-tesseract-3-04-on-centos-7-4573465d8867
以及以下软件包:
epel-release
python-pip
gcc
libjpeg
minizip
zlib
python
ghostscript
安装 pip 后,您需要安装 pypdfocr 和 pyyaml:
pip install pypdfocr
pip install pyyaml
我建议首先使用示例 pdf 让它在命令行中工作:
/opt/alfresco-community/scripts/ocr.sh -v -l por test.pdf test.pdf
我无法使用 pypdfocr 在 Alfresco 上对文件进行 OCR。
大家好,我刚开始使用 Alfresco,但在 Alfresco 中配置和使用 pypdfocr 时遇到了一些困难。
我在 Ubunto 18.04.5 LTS 上安装了 Alfresco,使用的是:
wget https://download.alfresco.com/release/community/201707-build-00028/alfresco-community-installer-201707-linux-x64.bin
我已经完成了所有必要的配置,在各自的文件夹中添加了文件 repo.jar 和 share.jar:
/opt/alfresco-community/modules/platform/simple-ocr-repo-2.3.1.jar
/opt/alfresco-community/modules/share/simple-ocr-share-2.3.1.jar
我在露天添加了属性-global.properties:
# PYPDFOCR
ocr.command = /opt/alfresco-community/scripts/ocr.sh
ocr.output.verbose = true
ocr.output.file.prefix.command =
ocr.extra.commands = -v -l por
ocr.server.os = linux
我创建了上面代码中调用的脚本:
#!/usr/bin/env bash
# set -o xtrace # Uncomment for debugging / troubleshooting
array = ("$ @")
unset "array [$ {# array [@]} - 1]"
/usr/local/bin/pypdfocr "$ {array [@]}"
我安装了这样的依赖项: apt 安装 gcc libjpeg-dev minizip zlib1g-dev python-dev
但是,当我尝试在 Alfresco 中执行 OCR 时,我在 /tomcat/logs/:
中收到以下消息catalina.out
任何帮助将不胜感激
**** 我尝试通过安装更多依赖项来解决,但是没有用:
apt-get install wget gcc gcc-c ++ make autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel ocaml ImageMagick ImageMagick-devel
我收到以下消息:
E: Unable to locate package gcc-c +
E: Couldn't find any package by regex 'gcc-c +'
E: Unable to locate package libjpeg-devel
E: Unable to locate package libpng-devel
E: Unable to locate package libtiff-devel
E: Unable to locate package zlib-devel
E: Unable to locate package ImageMagick
E: Unable to locate package ImageMagick-devel
看来 ImageMagick and/or poppler-utils 需要安装。
要安装 ImageMagick:https://www.tutorialspoint.com/how-to-install-imagemagick-on-ubuntu 安装 poppler-utils: sudo apt-get install -y poppler-utils
注意:您需要更多依赖项才能使此 ocr 模块正常工作。具体如下:
Tesseract 和 Leptonica:https://medium.com/@jjagadish.in/install-tesseract-3-04-on-centos-7-4573465d8867
以及以下软件包:
epel-release
python-pip
gcc
libjpeg
minizip
zlib
python
ghostscript
安装 pip 后,您需要安装 pypdfocr 和 pyyaml:
pip install pypdfocr
pip install pyyaml
我建议首先使用示例 pdf 让它在命令行中工作:
/opt/alfresco-community/scripts/ocr.sh -v -l por test.pdf test.pdf