extract-document-data 作为 xml 字符串元素出现在 json 输出中

Question

我正在尝试使用查询选项“extract-document-data[，使用取自“匹配”文档的一些元素来丰富我的搜索结果=31=]”喜欢

<options xmlns="http://marklogic.com/appservices/search"> <extract-document-data selected="include"> <extract-path>/language-version/language-version-canonical-model/title</extract-path> <extract-path>/language-version/language-version-canonical-model/language</extract-path> </extract-document-data> (...) </options>

当我运行搜索并请求 Json 输出（使用 header 接受：application/json）时，我得到 的混合json 和“strinxml” 结果：

{ "snippet-format": "snippet", "total": 564, "start": 1, "page-length": 10, "selected": "include", "results": [ { "index": 1, "uri": "ENV/CHEM/NANO(2015)22/ANN5/2", "path": "fn:doc(\"ENV/CHEM/NANO(2015)22/ANN5/2\")", (...) "matches": [ { "path": "fn:doc(\"ENV/CHEM/NANO(2015)22/ANN5/2\")/ns2:language-version/ns2:language-version-raw-data/*:document/*:page[22]", (...) } ], "extracted": { "kind": "element", "content": [ "<language>En</language>", "<title>ZINC OXIDE DOSSIERANNEX 5</title>", "<reference>ENV/CHEM/NANO(2015)22/ANN5</reference>", "<classification>2</classification>", "<modificationDate>2015-04-16T00:00:00.000+02:00</modificationDate>", "<subject label_en=\"media\" >media</subject>", "<subject label_en=\"fish\" ">fish</subject>", ] } },

这里的问题出在“extracted”部分，如您所见，它看起来像 xml元素被简单地复制为字符串，而我真的希望它们被转换为 json。

有人知道这个问题吗？

Answer 1

MarkLogic 不会转换内容。因此，当请求 JSON 格式的搜索响应时，XML 将保持 XML。由于您不能真正将 XML 嵌入 JSON，它会被序列化为字符串。

您可以尝试对搜索结果应用 REST 转换，并使用类似 json:transform-to-json 的方法（可能使用自定义配置）来即时转换这些结果。例如像这样的服务器端 JavaScript 转换：

/* jshint node:true,esnext:true */
/* global xdmp */

var json = require('/MarkLogic/json/json.xqy');
var config = json.config('custom');

function toJson(context, params, content) {
  'use strict';

  var response = content.toObject();

  if (response.results) {
    response.results.map(function(result) {
      if (result.extracted && result.extracted.content) {
        result.extracted.content.map(function(content, index) {
          if (content.match(/^</) && !content.match(/^<!/)) {
            result.extracted.content[index] = json.transformToJson(xdmp.unquote(content), config);
          }
        });
      }
    });
  }

  return response;
}

exports.transform = toJson;

当然你也可以转换客户端。

HTH！

Answer 2

如果您使用的是 Java 客户端 API，您可以使用每个结果的正确句柄来读取提取的项目（参见 ExtractedResult and ExtractedItem）：

SearchHandle results = queryManager.search(query, new SearchHandle());
for (MatchDocumentSummary summary : results.getMatchResults()) {
    ExtractedResult extracted = summary.getExtracted();
    // here we check to see if this result is XML format, and if so
    // we use org.w3c.dom.Document
    if ( Format.XML == summary.getFormat() ) {
        for (ExtractedItem item : extracted) {
            Document extractItem = item.getAs(new DOMHandle()).get();
            ...
        }
    // or if the result is JSON we could choose a different handle
    } else if ( Format.JSON == summary.getFormat() ) {
        for (ExtractedItem item : extracted) {
            JsonNode extractItem = item.getAs(JsonNode.class);
            ...
        }
    }
}

extract-document-data 作为 xml 字符串元素出现在 json 输出中

extract-document-data comes as xml string element in json output

xml

json

marklogic