docsplit gem pdf 到文本
docsplit gem pdf to text
基本上我遇到的问题与此处讨论的问题相同:http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/
但是他们在 docsplit 中提出的解决方案不起作用。
Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})
:pdf_opts => '-layout' 选项没有任何作用,我找不到任何关于此类选项的文档,因此我得到输出文本文件中每行一个单词。
有谁知道如何获得准确的文本文件?
谢谢
如果你阅读博客post 仔细内部处理
:pdf_opts => ‘-layout’
docsplit gem 的主分支尚不支持。为此,您需要使用 https://github.com/documentcloud/docsplit/pull/114。所以使用
gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git'
希望这对您有所帮助。如果您仍然遇到任何问题,请告诉我。
基本上我遇到的问题与此处讨论的问题相同:http://blog.joshsoftware.com/2014/08/13/pdf-to-plain-text-processing-using-docsplit/ 但是他们在 docsplit 中提出的解决方案不起作用。
Docsplit.extract_text(filepath, {:pdf_opts => ‘-layout’, output: ‘tmp_text_file’})
:pdf_opts => '-layout' 选项没有任何作用,我找不到任何关于此类选项的文档,因此我得到输出文本文件中每行一个单词。
有谁知道如何获得准确的文本文件?
谢谢
如果你阅读博客post 仔细内部处理
:pdf_opts => ‘-layout’
docsplit gem 的主分支尚不支持。为此,您需要使用 https://github.com/documentcloud/docsplit/pull/114。所以使用
gem 'docsplit', git: 'git://github.com/narutosanjiv/docsplit.git'
希望这对您有所帮助。如果您仍然遇到任何问题,请告诉我。