docsplit gem pdf 到文本

docsplit gem pdf to text

基本上我遇到的问题与此处讨论的问题相同:http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/ 但是他们在 docsplit 中提出的解决方案不起作用。

 Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})

:pdf_opts => '-layout' 选项没有任何作用,我找不到任何关于此类选项的文档,因此我得到输出文本文件中每行一个单词。

有谁知道如何获得准确的文本文件?

谢谢

如果你阅读博客post 仔细内部处理

 :pdf_opts => ‘-layout’

docsplit gem 的主分支尚不支持。为此,您需要使用 https://github.com/documentcloud/docsplit/pull/114。所以使用

gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git'

希望这对您有所帮助。如果您仍然遇到任何问题,请告诉我。