我想用 python 抓取印地语(印度语言)pdf 文件

I want to scrape a Hindi(Indian Langage) pdf file with python

我已经编写了 python 代码来从 PDF 文件中抓取所有数据。这里的问题是,一旦它被刮掉,这些词就失去了它们的语法。如何解决这些问题? 我附上代码。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
   rsrcmgr = PDFResourceManager()
   retstr = StringIO()
   codec = 'utf-8'
   laparams = LAParams()
   device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
   with open(path, 'rb') as fp:
         interpreter = PDFPageInterpreter(rsrcmgr, device)
         password = ""
         caching = True
         pagenos = set()

         for page in PDFPage.get_pages(fp, pagenos, password=password,caching=caching, check_extractable=True):
             interpreter.process_page(page)
         text = retstr.getvalue()
  device.close()
  retstr.close()
  return text
print convert_pdf_to_txt("S24A276P001.pdf")

这里是PDF的截图。

解决该问题的最佳方法是使用 python 中的 textract 模块并从其 github 存储库加载印地语测试数据,并将提取的文本写入 txt 文件。这解决了我的问题。