用于自定义操作的 sklearn 管道

sklearn Pipeline for custome operations

我一直在尝试为一些基本的分类任务创建管道。虽然,我无法找到如何使用 sklearn.Pipeline

实现以下操作
  1. 仅针对训练数据而不是测试数据添加一些步骤
  2. 实现 'df.apply' 类函数

我尝试阅读一些媒体博客和文档,但没有成功。

我认为可能有很多方法可以做到这一点。严格来说,这并不是您必须与 sklearn.Pipeline 相关的事情。您可能会使用 airflow 之类的东西来编排分类任务的步骤,或者您甚至可以使用 zenml 之类的东西来准确处理这些类型的任务。您可以将每个步骤包装在一个简单的 @step 装饰器中,然后在管道中将它们链接在一起。

quickstart guide has a simple example that I think might well suit your purposes. Otherwise check out the Github page了解更多详情。

免责声明:我本人是一名在 ZenML 工作的工程师,所以这无疑是有偏见的!不过,我认为它可能对您有用。您甚至可以非常轻松地在 Airflow 编排器上执行 运行 您的管道等操作。