Foundry Data Connection 中的源“S3(通过 Hadoop)”和“S3(直接)”有什么区别?
What's the difference between Sources “S3 (through Hadoop)” and “S3 (Direct)” in Foundry Data Connection?
Foundry Data Connection 中可用的两个 S3 源选项有什么区别?
- S3(通过 Hadoop)
- S3(直接)
摄取 parquet 文件的首选之一是什么?
通过 Hadoop 的 S3 是目前经过最佳测试和最灵活的 S3 选项,但是大量文件的性能非常差。
S3 Direct 直接使用 Amazon S3 SDK 从 S3 读取,性能明显优于 Hadoop,因为它需要 O(1)
而不是 O(number of files)
网络调用。
我们建议尽可能使用 S3-direct 来源。
Foundry Data Connection 中可用的两个 S3 源选项有什么区别?
- S3(通过 Hadoop)
- S3(直接)
摄取 parquet 文件的首选之一是什么?
通过 Hadoop 的 S3 是目前经过最佳测试和最灵活的 S3 选项,但是大量文件的性能非常差。
S3 Direct 直接使用 Amazon S3 SDK 从 S3 读取,性能明显优于 Hadoop,因为它需要 O(1)
而不是 O(number of files)
网络调用。
我们建议尽可能使用 S3-direct 来源。