Foundry Data Connection 中的源“S3(通过 Hadoop)”和“S3(直接)”有什么区别?

What's the difference between Sources “S3 (through Hadoop)” and “S3 (Direct)” in Foundry Data Connection?

Foundry Data Connection 中可用的两个 S3 源选项有什么区别?

摄取 parquet 文件的首选之一是什么?

通过 Hadoop 的 S3 是目前​​经过最佳测试和最灵活的 S3 选项,但是大量文件的性能非常差。

S3 Direct 直接使用 Amazon S3 SDK 从 S3 读取,性能明显优于 Hadoop,因为它需要 O(1) 而不是 O(number of files) 网络调用。

我们建议尽可能使用 S3-direct 来源。