如何使用弹性搜索索引 10 亿行 CSV 文件？

How to index a 1 billion row CSV file with elastic search?

假设您有一个很大的 CSV 文件 - 假设有 10 亿行。

您希望文件中的每一行都成为弹性搜索中的一个文档。

您无法将文件加载到内存中 - 它太大，因此必须进行流式处理或分块处理。

花费的时间不是问题。首要任务是确保所有数据都被索引，没有丢失数据。

您如何看待这种做法：

第 1 部分：准备数据

第 2 部分：上传数据

您上面提到的步骤看起来不错。其他一些确保 ES 不会承受负载的事情：

根据我的经验，您也可以将批量请求大小增加到更大的值，比如在 4k-7k 范围内的某个位置（从 7k 开始，如果它会导致疼痛，请尝试使用较小的批次，但继续低于 4k 可能不需要）。
确保 refresh_interval 的值设置为非常大的值。这将确保不会非常频繁地索引文档。 IMO 默认值也可以。阅读更多 here.

正如上面的评论所暗示的，如果您从较小的一批数据开始会更好。当然，如果您使用常量而不是对值进行硬编码，您的任务就会变得更容易。