如何使用内容泵导入 MarkLogic 一个文件多个文档
How to Import MarkLogic one file many documents with content Pump
我有一个格式正确的单个 json 文件,它是一组文档(大约 60,000)。我可以使用节点 api 导入它,但只是想知道如何使用 Marklogic 内容泵 (windows) 导入此文件。
我尝试使用基本选项,它只创建了一个名为 orders.json
的文档
对于 MLCP,格式正确的 JSON 聚合(称为行分隔 JSON)文件是 而不是 对象数组。它是一个包含一个字符串化对象的文件 每行 。考虑 CSV,但 JSON 东西。
想象一下,如果您传递一个数组 - MLCP 进程必须将整个文件解析为一个 JSON 数组才能处理。每行一个对象意味着 MLCP 可以轻松地对文件进行分片并并行处理。事实上,如果您使用自动 URI,我认为它甚至不会解析为 JSON。
差:
[
{
"bar": "baz"
},
{
"bar": "buz"
}
]
好:
{"bar":"baz"}
{"bar":"buz"}
所有关于此的好东西都可以在这里找到:
MLCP User Guide
相关部分是:
(文档版本准确:'2017 年 9 月 9.0-3')
- 4.10
- 4.10.1
我有一个格式正确的单个 json 文件,它是一组文档(大约 60,000)。我可以使用节点 api 导入它,但只是想知道如何使用 Marklogic 内容泵 (windows) 导入此文件。
我尝试使用基本选项,它只创建了一个名为 orders.json
的文档对于 MLCP,格式正确的 JSON 聚合(称为行分隔 JSON)文件是 而不是 对象数组。它是一个包含一个字符串化对象的文件 每行 。考虑 CSV,但 JSON 东西。
想象一下,如果您传递一个数组 - MLCP 进程必须将整个文件解析为一个 JSON 数组才能处理。每行一个对象意味着 MLCP 可以轻松地对文件进行分片并并行处理。事实上,如果您使用自动 URI,我认为它甚至不会解析为 JSON。
差:
[
{
"bar": "baz"
},
{
"bar": "buz"
}
]
好:
{"bar":"baz"}
{"bar":"buz"}
所有关于此的好东西都可以在这里找到:
MLCP User Guide
相关部分是: (文档版本准确:'2017 年 9 月 9.0-3')
- 4.10
- 4.10.1