ML 中的 Orchestrators 到底是什么?
What exactly is Orchestrators in ML?
实际上,在 ML 管道组件中,我们明确指定了输入和输出。
例如,在 TFX statisticgen 中,从 examplegen 中获取输入并输出一些 statistics.so 输入和输出很清楚,这在所有组件中都是相同的。所以为什么我们需要协调器。如果有人知道请帮助我?
在实际项目中,一切都可能复杂得多:
- 输入数据可以来自不同的来源:数据库、文件系统、第三方服务。所以我们需要先做经典的 ETL,然后才能开始处理数据。
您可以在一个管道中使用不同的技术。比如Spark作为一个预处理工具,以后可以需要用一个带GPU的实例进行模型训练。
最后但同样重要的是 - 在生产中你需要关心更多的事情。例如数据验证,模型评估等。我写了a separate article about how to organize this part using Apache Airflow。
实际上,在 ML 管道组件中,我们明确指定了输入和输出。
例如,在 TFX statisticgen 中,从 examplegen 中获取输入并输出一些 statistics.so 输入和输出很清楚,这在所有组件中都是相同的。所以为什么我们需要协调器。如果有人知道请帮助我?
在实际项目中,一切都可能复杂得多:
- 输入数据可以来自不同的来源:数据库、文件系统、第三方服务。所以我们需要先做经典的 ETL,然后才能开始处理数据。
您可以在一个管道中使用不同的技术。比如Spark作为一个预处理工具,以后可以需要用一个带GPU的实例进行模型训练。
最后但同样重要的是 - 在生产中你需要关心更多的事情。例如数据验证,模型评估等。我写了a separate article about how to organize this part using Apache Airflow。