如何在 python 中横向阅读 pdf？

Question

我有一个纵向的 pdf 文件，但在某些页面中，文本是横向的。当使用 PyPDF2 阅读上面的页面时，我从 extractText() 函数中得到了这个文本：

page.extractText()

输出[24]："U ~ 00 w . T•~, ca o rn o\ rn rn rn ~ >, p y ro • ti† ~ a ~ v CN d V1 U á x ~ U bb Q P ~ O U y ~ ~ á ~ ~ ~ F~ o vl VI † I~ p * 00 p † N ó † O cn 0 † v l o ~ O 7 0 † '_ ' aIs s~Ł ~ Y ~ ~ O ~ pp p . p vl p O' O O O F-1 F cn W >1 ~ kn ~ --i N •--i r ~ F•N r.' ~ CD †r p o p o 0 G v VI W ~ Ł U ~ W o ^ o 3 .-. .-. o O .-. O O in M ~on vl 3 ó ó ò ó ò ~ a ~ tn . mó00 woNN p 00 a+ -fl n~n a O ;~ o ~^ o a. ~ … — — — — — •• •• • N ~ G_ L' U U U 0 3ed~ — a o o ~ •†zce bp eV+ wb0 CI ce a tn ~O ~ I "

这是我尝试提取文本的页面示例： Portrait page, landscape text

Answer 1

如果OCR没有将文本放入PDF文档，您无法阅读文本。

尝试使用 pdflatex 或文字处理器生成类似的混合方向文档，并从中提取文本进行比较。

考虑在文本识别阶段之前通过将图像倾斜接近 90 度的角度来帮助您的 OCR 包。

如何在 python 中横向阅读 pdf？

How to read a pdf in landscape orientation in python?

pdf

python-3.x

landscape-portrait

pypdf2