将 cp1251 pdf 解析为 python 中的文本
Parsing cp1251 pdf to text in python
有什么方法可以从带有俄语文本 (cp1251) 的 pdf 文件中提取文本吗?
为了解析 pdf 文件,我正在使用 pdfminer 包。
我试图在 pdfminer.converter.TextConverter class 的参数中指定编码,但它没有帮助。
如果您想在从 PDF 文件中提取文本后进一步解析文本,您将需要 python...因此,只需先提取文本而不转换文本并将其保存在 txt 文件中。
您可以为此目的使用 pdf2txt(使用 unbuntu:http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html)
然后用 python 打开文件并将文本格式 cp1251 转换为 utf-8,此处接受的答案将向您展示如何操作:
How to convert a string from CP-1251 to UTF-8?
然后解析...
有什么方法可以从带有俄语文本 (cp1251) 的 pdf 文件中提取文本吗?
为了解析 pdf 文件,我正在使用 pdfminer 包。 我试图在 pdfminer.converter.TextConverter class 的参数中指定编码,但它没有帮助。
如果您想在从 PDF 文件中提取文本后进一步解析文本,您将需要 python...因此,只需先提取文本而不转换文本并将其保存在 txt 文件中。
您可以为此目的使用 pdf2txt(使用 unbuntu:http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html)
然后用 python 打开文件并将文本格式 cp1251 转换为 utf-8,此处接受的答案将向您展示如何操作:
How to convert a string from CP-1251 to UTF-8?
然后解析...