带数据流的 MLCP
MLCP with Stream of Data
不确定这个问题是否有效...
Requrement - 我将编写一个从外部 REST 端点捕获大量数据的应用程序,我想使用 MLCP 将来自外部 REST 端点的数据流存储到马克逻辑。
是否可以使用 MLCP?
请给出你的解决方案。
如果 "stream" 表示 space 和时间无限制,而 "huge" 表示多 GB+,那么没有 MLCP 不是正确的选择,或者是不充分的。 MLCP 是一个命令行 'batch' 程序,您需要在启动它之前将所有数据都存储在本地,而不是 'streaming' 这个意义上的程序。
在任何情况下,您都需要在发送到 MarkLogic 之前拆分数据——理想情况下,块(文档)< 100MB(不是幻数,只是一个很好的上限)。所以你的流代码需要读取数据,缓冲它,把它分成 'chunks' 然后发送给 ML。一旦进入 'chunks',那么任何 API 到 ML 都将起作用,包括 MLCP。不同的 APIs' 之间存在性能和可用性的权衡——我将把它留到另一个讨论中。
DMSDK(数据移动 SDK)可能有助于满足您的要求:
不确定这个问题是否有效...
Requrement - 我将编写一个从外部 REST 端点捕获大量数据的应用程序,我想使用 MLCP 将来自外部 REST 端点的数据流存储到马克逻辑。
是否可以使用 MLCP?
请给出你的解决方案。
如果 "stream" 表示 space 和时间无限制,而 "huge" 表示多 GB+,那么没有 MLCP 不是正确的选择,或者是不充分的。 MLCP 是一个命令行 'batch' 程序,您需要在启动它之前将所有数据都存储在本地,而不是 'streaming' 这个意义上的程序。
在任何情况下,您都需要在发送到 MarkLogic 之前拆分数据——理想情况下,块(文档)< 100MB(不是幻数,只是一个很好的上限)。所以你的流代码需要读取数据,缓冲它,把它分成 'chunks' 然后发送给 ML。一旦进入 'chunks',那么任何 API 到 ML 都将起作用,包括 MLCP。不同的 APIs' 之间存在性能和可用性的权衡——我将把它留到另一个讨论中。
DMSDK(数据移动 SDK)可能有助于满足您的要求: