Spark - Scala：解析和提取包含文本和图像的文档 - .doc、.docx 文件

Spark - Scala: Parsing and extracting a document which has both Text and Image - .doc, .docx files

scala
apache-spark-2.0

我有几个包含图像和文本的文件（doc、docx 文件）。我想解析这些文件并提取内容，有或没有图像细节。

目前我正在使用拒绝解析此类文件的 Apache Tika。它非常适合 PDF 和纯文本 .doc、.docx 文件。但是有图像的文件抛出错误：

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.commons.compress.utils.IOUtils.readFully(Ljava/io/InputStream;[B)I at org.apache.tika.parser.pkg.TikaArchiveStreamFactory.detect(TikaArchiveStreamFactory.java:472) at org.apache.tika.parser.pkg.ZipContainerDetector.detectArchiveFormat(ZipContainerDetector.java:112)

有什么方法可以从这些文件中提取内容。？

正在将我的所有文件转换为 PDF 文档。然后在它们上使用 Tika Parser - TesseractOCR。

Spark - Scala：解析和提取包含文本和图像的文档 - .doc、.docx 文件

Spark - Scala: Parsing and extracting a document which has both Text and Image - .doc, .docx files

scala

apache-spark-2.0