运行 Ruby IO.popen 中的外部程序:救援不工作

run external program in Ruby IO.popen : rescue not working

我正在使用 Tika jar 从 Microsoft Word 文档文件中提取元数据,但在 Tika 遇到问题的情况下,我的救援没有发现错误,而是退出了脚本。我在 windows 7 和 MRI Ruby 1.9.3 我可以调整 doc 文件,但我想避免以后的文件出现这个问题。 我怎样才能捕捉到这个错误?

JARPATH = "jar/tika-app-1.6.jar"

def metadata
    return @metadata if defined? @metadata
    switch = '-m -j'
    begin
      command = %Q{java -Djava.awt.headless=true -jar #{JARPATH} #{switch} "#{@path}"}
      output = IO.popen(command+" 2>&1") do |io|
        io.read
      end
      if output.respond_to?(:to_str)
        @metadata = JSON.parse(output)
      else
        @metadata = nil
      end
    rescue => e
      puts e
      puts e.backtrace
    end
  end

这是我得到的输出

c:/Ruby193/lib/ruby/gems/1.9.1/gems/json-1.8.2/lib/json/common.rb:155:in `parse': 757: unexpected token at 'Exception in thread "main" org.apache.tika.exception.TikaException: TIKA-198: Illegal IOExce
ption from org.apache.tika.parser.microsoft.OfficeParser@1006d75 (JSON::ParserError)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:250)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
        at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:121)
        at org.apache.tika.cli.TikaCLI$OutputType.process(TikaCLI.java:143)
        at org.apache.tika.cli.TikaCLI.process(TikaCLI.java:422)
        at org.apache.tika.cli.TikaCLI.main(TikaCLI.java:113)
Caused by: java.io.IOException: Invalid header signature; read 0x04090000002DA5DB, expected 0xE11AB1A1E011CFD0 - Your file appears not to be a valid OLE2 document
        at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:140)
        at org.apache.poi.poifs.storage.HeaderBlock.<init>(HeaderBlock.java:115)
        at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:204)
        at org.apache.poi.poifs.filesystem.NPOIFSFileSystem.<init>(NPOIFSFileSystem.java:163)
        at org.apache.tika.parser.microsoft.OfficeParser.parse(OfficeParser.java:162)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:244)
        ... 5 more
'
        from c:/Ruby193/lib/ruby/gems/1.9.1/gems/json-1.8.2/lib/json/common.rb:155:in `parse'
        from C:/Users/.../tika.rb:37:in `metadata'
        from C:/Users/.../index_helpers.rb:55:in `index_doc'
        from index.rb:39:in `block in <main>'
        from index.rb:20:in `each'
        from index.rb:20:in `each_with_index'
        from index.rb:20:in `<main>'

调用 IO.popen 后,您会将子程序的输出传递给 JSON.parse,而不管它是否有效。您看到的异常是 json 解析器试图解析 Java 异常方法,该方法被捕获是因为您使用 2>&1.

重定向了 stderr

您需要在继续之前检查子进程是否成功完成。最简单的方法可能是使用 $? 特殊变量,它指示在调用 popen 之后最后执行的子进程的状态。这个变量是一个实例 if Process::Status。你可以这样做:

output = IO.popen(command+" 2>&1") do |io|
  io.read
end

unless $?.success?
  # Handle the error however you feel is best, e.g.
  puts "Tika had an error, the message was:\n#{output}"
  raise "Tika error"
end

要获得更多控制,您可以查看标准库中的 Open3 module。由于 Tika 是一个 Java 程序,另一种可能是考虑使用 JRuby 并直接调用它。