使用pdfbox从pdf中提取文本得到错误的字符编码
got wrong characters encoding using pdfbox to extract text from pdf
最近,我必须将 pdf 索引到 ElasticSearch 中并使用 pdfbox 从 pdf 中提取文本,但是我得到了这样的错误字符编码
Ýëĭ2ĈjŬj§ė¥
1 ŋ?nij"2$ 2016£ 2Ú 5Õ,”Òªj§?ně#ij"2ě
^ë2ļŘœ A$j§?n 2016£ě#ëÖĭ2Ĉļê
2 èÅŋ?n$ 2016£ 2Ú 6ÕöĿS¿ ĿS¿ ĿS
Õ¿ ĿSÖ¿ eöĿS&غĨĘ
http://www.sse.com.cnLćĈ
A$j§Ýëĭ2ĈŘĐ
我的代码与本页所说的完全相同here。我尝试从 0.8.x 到 2.0.x 的 pdfbox lib 版本,但它仍然无法工作。
如有任何帮助或建议,我们将不胜感激!
我从@Tilman 的评论中得到了答案。
See pdfbox.apache.org/1.8/faq.html#notext and the answer below too.
最近,我必须将 pdf 索引到 ElasticSearch 中并使用 pdfbox 从 pdf 中提取文本,但是我得到了这样的错误字符编码
Ýëĭ2ĈjŬj§ė¥
1 ŋ?nij"2$ 2016£ 2Ú 5Õ,”Òªj§?ně#ij"2ě
^ë2ļŘœ A$j§?n 2016£ě#ëÖĭ2Ĉļê
2 èÅŋ?n$ 2016£ 2Ú 6ÕöĿS¿ ĿS¿ ĿS
Õ¿ ĿSÖ¿ eöĿS&غĨĘ
http://www.sse.com.cnLćĈ
A$j§Ýëĭ2ĈŘĐ
我的代码与本页所说的完全相同here。我尝试从 0.8.x 到 2.0.x 的 pdfbox lib 版本,但它仍然无法工作。
如有任何帮助或建议,我们将不胜感激!
我从@Tilman 的评论中得到了答案。
See pdfbox.apache.org/1.8/faq.html#notext and the answer below too.