如何将从 tesseract 中提取的文本转换为 pandas 数据帧

How to convert text extracted from tesseract to pandas dataframe

这是我从包含table的裁剪图像中提取的文本:

S 无零件代码零件说明

HSN

数量费率(卢比)

价值折扣 SGST SGST%

消费税消费税%

金额(卢比)

链条润滑油&

清洁套件-

34039900

0.16

1,406.78 213.5648

11.52

19.22

19.22

9

252.00

1

3600008

S00ML.

141715

灯泡 12V-2VW(BA9S)

85392940

4

10.17

10.17

0

0.92

0.92

9

12.01

2)

(停车)

20.14

18

264.01

总计

223.73

11.52

20.14

18

0.01

四舍五入

总计

264

这是图片

我想将其转换为 pandas 数据框。我应该怎么做?

df = pytesseract.image_to_data('1.jpg', lang='eng', output_type='data.frame')
display(df)

您需要指定 output_type='data.frame'

from PIL import Image
import pytesseract

df = pytesseract.image_to_data(Image.open('your_image.jpeg'),lang='eng',output_type='data.frame')