如何在 apache tika 中将 word 文档转换为 Json

How to convert a word document into Json in apache tika

我对大数据和 Tika 很陌生。我只想知道有没有办法将word文档(.doc)转换为JSON格式。我听说使用 java 的吗啉需要编码才能做到这一点,但我不知道 Java,是否有任何可用的解决方案。

我将在 Apache SolR 中使用 Tika。

像下面一样,您可以使用 ToXMLContentHandler 提取 xml,然后转换为 json

更多示例here

public String parseBodyToHTML(InputStream stream) throws IOException, SAXException, TikaException {
    ContentHandler handler = new BodyContentHandler(
            new ToXMLContentHandler());

    AutoDetectParser parser = new AutoDetectParser();
    Metadata metadata = new Metadata();
    parser.parse(stream, handler, metadata);
    return handler.toString();
}

另一种选择是为自己编写一个 JsonHandler ContentHandler