优化 Neptune 批量加载作业?

Optimizing Neptune Bulk Load Jobs?

目前我们有一个自动化引擎 运行 为我们的 Neptune 历史负载排队数十亿 nodes/edges。

数据拉出 Kafka 并将批量 CSV 写入 S3 以启动加载。目前我在每批从队列中提取几百万条记录后上传文件。

我正在使用 oversubscribe 参数并查看高级文档以进行批量优化。我看到我每小时可以获得大约 3600 万条记录,但希望速度更快。我想要输出文件更大吗?我一次只能 运行 一项工作,而且我的队列不断被填满,达到 65 个上限。

一般来说,较大的文件应该比较小的文件提供更好的性能,因为工作线程 运行 负载会在它们之间分配文件。更大的实例也有助于加载速度更快。如果可能,当您要加载大量数据时,db.r5.12xlarge 是一个不错的选择。一旦您需要实现的写入量变慢并且较小的实例就足够了,您可以再次缩减它。