有没有办法使用 R 从 excel 文件中提取图片?然后可以将其放入 tesseract ocr

Is there a way to extract a picture from an excel file using R? It could then be placed into the tesseract ocr

我有多个 excel 文件,其中一张包含图片。有没有办法将图像(图像路径)提取到 R 中,然后放入 tesseract ocr 中。

之前我使用了 openxlsx 包的函数 loadWorkbook:

wb <- openxlsx::loadWorkbook("C:/Users/.../test_file.xlsx")

当你输出 wb:

A Workbook object.

Worksheets:
 Sheet 1: "Sheet1"



Images:
 Image 1: "C:/Users/..../AppData/Local/Temp/RtmpuUQZm7//file41e..._openxlsx_loadworkbook/xl/media/image1.png"
 Worksheet write order: 1

这个图片路径有办法获取吗? type 变量是一个工作簿对象,当你输入它时,它是 "S4" 所以看起来我无法将它转换为一个字符并拉出路径。

您可以使用工作簿对象的 @media 插槽访问图像路径。

这是绘制存储在 xlsx 文件中的 PNG 的代表:

require(png)
require(openxlsx)
require(grid)

wb  <- openxlsx::loadWorkbook("~/img.xlsx")
img <- png::readPNG(wb@.xData$media[1])
grid::grid.newpage()
grid::grid.raster(img)

reprex package (v0.3.0)

于 2020-03-04 创建