如何将从 tesseract 中提取的文本转换为 pandas 数据帧
How to convert text extracted from tesseract to pandas dataframe
这是我从包含table的裁剪图像中提取的文本:
S 无零件代码零件说明
HSN
数量费率(卢比)
价值折扣 SGST SGST%
消费税消费税%
金额(卢比)
链条润滑油&
清洁套件-
34039900
0.16
1,406.78 213.5648
11.52
19.22
19.22
9
252.00
1
3600008
S00ML.
141715
灯泡 12V-2VW(BA9S)
85392940
4
10.17
10.17
0
0.92
0.92
9
12.01
2)
(停车)
20.14
18
264.01
总计
223.73
11.52
20.14
18
0.01
四舍五入
总计
264
这是图片
我想将其转换为 pandas 数据框。我应该怎么做?
df = pytesseract.image_to_data('1.jpg', lang='eng', output_type='data.frame')
display(df)
您需要指定 output_type='data.frame'
。
from PIL import Image
import pytesseract
df = pytesseract.image_to_data(Image.open('your_image.jpeg'),lang='eng',output_type='data.frame')
这是我从包含table的裁剪图像中提取的文本:
S 无零件代码零件说明
HSN
数量费率(卢比)
价值折扣 SGST SGST%
消费税消费税%
金额(卢比)
链条润滑油&
清洁套件-
34039900
0.16
1,406.78 213.5648
11.52
19.22
19.22
9
252.00
1
3600008
S00ML.
141715
灯泡 12V-2VW(BA9S)
85392940
4
10.17
10.17
0
0.92
0.92
9
12.01
2)
(停车)
20.14
18
264.01
总计
223.73
11.52
20.14
18
0.01
四舍五入
总计
264
这是图片
我想将其转换为 pandas 数据框。我应该怎么做?
df = pytesseract.image_to_data('1.jpg', lang='eng', output_type='data.frame')
display(df)
您需要指定 output_type='data.frame'
。
from PIL import Image
import pytesseract
df = pytesseract.image_to_data(Image.open('your_image.jpeg'),lang='eng',output_type='data.frame')