Highload数据更新架构

Highload data update architecture

我正在开发一个包裹跟踪系统并考虑如何提高它的性能。

现在我们在 postgres 中有一个名为 parcels 的 table，其中包含 id、最后已知位置等内容

每天大约有 300.000 个新包裹被添加到这个 table。包裹数据取自外部 API。我们需要尽可能准确地跟踪所有包裹位置，并减少 API 调用特定包裹的时间间隔。

鉴于这样的要求，您对项目架构有何建议？

目前我能想到的唯一解决方案就是生产者消费者模式。就像让一个进程在无限循环中从 parcel table 中选择所有记录，然后使用 Celery 之类的东西分发获取数据任务。

此解决方案的主要缺点是：

这是一个非常宽泛的话题，但我可以给你一些建议。一旦达到垂直扩展的极限（基于选择更强大的机器的扩展），您必须水平扩展（基于为同一任务添加更多机器的扩展）。因此，为了能够设计可扩展的架构，您必须了解分布式系统。这里有一些要研究的主题：

对于您的包裹的具体问题，我建议您考虑为您的位置数据使用键值存储。这些可以扩展到每天数十亿次插入和检索（当按键查询时）。

听起来您的数据有点临时，可以在包裹尚未交付（并在之后存档）时保存在内存中的热存储中。分布式内存数据库可以在插入和查询方面进一步扩展。

您可能还想将数据提取（通过您的 api）与处理和持久性分离。为此，您可以考虑引入流处理系统。