Azure Data Lake Store 并发

Azure Data Lake Store concurrency

我一直在玩弄 Azure Data Lake Store,在文档中,Microsoft 声称该系统针对低延迟小文件写入进行了优化。对其进行测试 我尝试对单个文件执行大量并行任务写入,但这种方法在大多数情况下会失败,返回错误请求。这个 link https://issues.apache.org/jira/secure/attachment/12445209/appendDesign3.pdf 表明 HDFS 不是用来处理单个文件的并发追加的,所以我第二次尝试使用 API 中的 ConcurrentAppendAsync 方法,但是尽管该方法不会崩溃,我的文件从未在商店中修改过。

关于并行写入的工作方式,您所发现的是正确的。我假设您已经阅读了 ConcurrentAppendAsync 的 documentation

那么,在您的情况下,您是否对 Webhdfs 写入测试和 ConcurrentAppendAsync 使用了相同的文件?如果是这种情况,那么 ConcurrentAppendAsync 将不起作用,如文档中所述。但是在那种情况下你应该得到一个错误。

无论如何,让我们知道发生了什么,我们可以进一步调查。

谢谢,

萨钦·谢斯

项目经理 - Azure Data Lake