ML 中的 Orchestrators 到底是什么?

What exactly is Orchestrators in ML?

实际上,在 ML 管道组件中,我们明确指定了输入和输出。

例如,在 TFX statisticgen 中,从 examplegen 中获取输入并输出一些 statistics.so 输入和输出很清楚,这在所有组件中都是相同的。所以为什么我们需要协调器。如果有人知道请帮助我?

在实际项目中,一切都可能复杂得多:

  • 输入数据可以来自不同的来源:数据库、文件系统、第三方服务。所以我们需要先做经典的 ETL,然后才能开始处理数据。
  • 您可以在一个管道中使用不同的技术。比如Spark作为一个预处理工具,以后可以需要用一个带GPU的实例进行模型训练。

  • 最后但同样重要的是 - 在生产中你需要关心更多的事情。例如数据验证,模型评估等。我写了a separate article about how to organize this part using Apache Airflow