优化 Neptune 批量加载作业？

Optimizing Neptune Bulk Load Jobs?

amazon-neptune

目前我们有一个自动化引擎运行为我们的 Neptune 历史负载排队数十亿 nodes/edges。

数据拉出 Kafka 并将批量 CSV 写入 S3 以启动加载。目前我在每批从队列中提取几百万条记录后上传文件。

我正在使用 oversubscribe 参数并查看高级文档以进行批量优化。我看到我每小时可以获得大约 3600 万条记录，但希望速度更快。我想要输出文件更大吗？我一次只能运行一项工作，而且我的队列不断被填满，达到 65 个上限。

一般来说，较大的文件应该比较小的文件提供更好的性能，因为工作线程运行负载会在它们之间分配文件。更大的实例也有助于加载速度更快。如果可能，当您要加载大量数据时，db.r5.12xlarge 是一个不错的选择。一旦您需要实现的写入量变慢并且较小的实例就足够了，您可以再次缩减它。