如何使用内容泵导入 MarkLogic 一个文件多个文档

Question

我有一个格式正确的单个 json 文件，它是一组文档（大约 60,000）。我可以使用节点 api 导入它，但只是想知道如何使用 Marklogic 内容泵 (windows) 导入此文件。

我尝试使用基本选项，它只创建了一个名为 orders.json

的文档

Answer 1

对于 MLCP，格式正确的 JSON 聚合（称为行分隔 JSON）文件是 而不是 对象数组。它是一个包含一个字符串化对象的文件每行。考虑 CSV，但 JSON 东西。

想象一下，如果您传递一个数组 - MLCP 进程必须将整个文件解析为一个 JSON 数组才能处理。每行一个对象意味着 MLCP 可以轻松地对文件进行分片并并行处理。事实上，如果您使用自动 URI，我认为它甚至不会解析为 JSON。

差：

[
  {
    "bar": "baz"
  },
  {
    "bar": "buz"
  }
]

好：

{"bar":"baz"}
{"bar":"buz"}

所有关于此的好东西都可以在这里找到：
MLCP User Guide

相关部分是： （文档版本准确：'2017 年 9 月 9.0-3'）

How to Import MarkLogic one file many documents with content Pump