如何在 python 中横向阅读 pdf?
How to read a pdf in landscape orientation in python?
我有一个纵向的 pdf 文件,但在某些页面中,文本 是横向的。当使用 PyPDF2 阅读上面的页面时,我从 extractText() 函数中得到了这个文本:
page.extractText()
输出[24]:"U ~ 00 w . T•~, ca o rn o\ rn rn rn ~ >, p y ro • ti† ~ a ~ v CN d V1 U á x ~ U bb Q P ~ O U y ~ ~ á ~ ~ ~ F~ o vl VI † I~ p * 00 p † N ó † O cn 0 † v l o ~ O 7 0 † '_ ' aIs s~
Ł ~ Y ~ ~ O ~ pp p . p vl p O' O O O F-1 F cn W >1 ~ kn ~ --i N •--i r ~ F•N r.' ~ CD †r p o p o 0 G v VI W ~ Ł U ~ W o ^ o 3 .-. .-. o O .-. O O in M ~on vl 3 ó ó ò ó ò ~ a ~ tn . mó00 woNN p 00 a+ -fl n~n a O ;~ o ~^ o a. ~ … — — — — — •• •• • N ~ G_ L' U U U 0 3ed~ — a o o ~ •†zce bp eV+ wb0 CI ce a tn ~O ~ I "
这是我尝试提取文本的页面示例:
Portrait page, landscape text
如果OCR没有将文本放入PDF文档,您无法阅读文本。
尝试使用 pdflatex 或文字处理器生成类似的混合方向文档,并从中提取文本进行比较。
考虑在文本识别阶段之前通过将图像倾斜接近 90 度的角度来帮助您的 OCR 包。
我有一个纵向的 pdf 文件,但在某些页面中,文本 是横向的。当使用 PyPDF2 阅读上面的页面时,我从 extractText() 函数中得到了这个文本:
page.extractText()
输出[24]:"U ~ 00 w . T•~, ca o rn o\ rn rn rn ~ >, p y ro • ti† ~ a ~ v CN d V1 U á x ~ U bb Q P ~ O U y ~ ~ á ~ ~ ~ F~ o vl VI † I~ p * 00 p † N ó † O cn 0 † v l o ~ O 7 0 † '_ ' aIs s~
Ł ~ Y ~ ~ O ~ pp p . p vl p O' O O O F-1 F cn W >1 ~ kn ~ --i N •--i r ~ F•N r.' ~ CD †r p o p o 0 G v VI W ~ Ł U ~ W o ^ o 3 .-. .-. o O .-. O O in M ~on vl 3 ó ó ò ó ò ~ a ~ tn . mó00 woNN p 00 a+ -fl n~n a O ;~ o ~^ o a. ~ … — — — — — •• •• • N ~ G_ L' U U U 0 3ed~ — a o o ~ •†zce bp eV+ wb0 CI ce a tn ~O ~ I "
这是我尝试提取文本的页面示例: Portrait page, landscape text
如果OCR没有将文本放入PDF文档,您无法阅读文本。
尝试使用 pdflatex 或文字处理器生成类似的混合方向文档,并从中提取文本进行比较。
考虑在文本识别阶段之前通过将图像倾斜接近 90 度的角度来帮助您的 OCR 包。