如何在 Databricks 上安装 Tesseract OCR
How to install Tesseract OCR on Databricks
我正在尝试 运行 数据块 python 笔记本上的以下脚本:
pip install presidio-image-redactor
pip install pytesseract
python -m spacy download en_core_web_lg
from PIL import Image
from presidio_image_redactor import ImageRedactorEngine
import pytesseract
image = Image.open("images/ImageData.PNG")
engine = ImageRedactorEngine()
redacted_image = engine.redact(image, (255, 192, 203))
在最后一行 运行 后,我收到以下错误:
TesseractNotFoundError:tesseract 未安装或不在您的路径中。
我错过了什么吗?
您可以在单独的单元格中使用 %sh
在驱动程序节点上执行 shell 命令。要安装 tesseract,你可以这样做:
%sh apt-get -f -y install tesseract-ocr
如果需要将其安装到集群的所有节点,则需要使用cluster init script和相同的命令(没有%sh
)
我正在尝试 运行 数据块 python 笔记本上的以下脚本:
pip install presidio-image-redactor
pip install pytesseract
python -m spacy download en_core_web_lg
from PIL import Image
from presidio_image_redactor import ImageRedactorEngine
import pytesseract
image = Image.open("images/ImageData.PNG")
engine = ImageRedactorEngine()
redacted_image = engine.redact(image, (255, 192, 203))
在最后一行 运行 后,我收到以下错误:
TesseractNotFoundError:tesseract 未安装或不在您的路径中。
我错过了什么吗?
您可以在单独的单元格中使用 %sh
在驱动程序节点上执行 shell 命令。要安装 tesseract,你可以这样做:
%sh apt-get -f -y install tesseract-ocr
如果需要将其安装到集群的所有节点,则需要使用cluster init script和相同的命令(没有%sh
)