云数据融合最后 运行 时间作为参数
cloud data fusion last run time as parameter
我正在创建一个 Cloud Data Fusion 管道,我需要从数据库中提取增量数据。我提取数据的查询是这样的:
SELECT * FROM TABLE WHERE updated_date >${last_pipeline_run_time}
将 last_pipeline_run_time 作为参数动态传递给数据融合管道的最佳方法是什么。如果您可以为此提出任何其他解决方法,那也是 helpful.I 我暂时没有使用任何其他调度程序(如 Airflow)。
尽管在 Data Fusion 管道中没有看到这样的参数,您可以考虑将类似的元数据存储在单独的 table 中,然后使用 'Database Argument Setter' 插件获取它。
例如管道可以是:
'Database Argument Setter' -> 'Database source' -> (你管道的其他插件) -> 'Database Action'
'Database Argument Setter' 是查询元数据 table 的时间戳并将其存储为该管道的运行时参数。
pipeline末尾的'Database Action'是用本次pipeline最新加载数据的timestamp更新元数据table,以便下次pipeline可以从这个时间戳。
我正在创建一个 Cloud Data Fusion 管道,我需要从数据库中提取增量数据。我提取数据的查询是这样的:
SELECT * FROM TABLE WHERE updated_date >${last_pipeline_run_time}
将 last_pipeline_run_time 作为参数动态传递给数据融合管道的最佳方法是什么。如果您可以为此提出任何其他解决方法,那也是 helpful.I 我暂时没有使用任何其他调度程序(如 Airflow)。
尽管在 Data Fusion 管道中没有看到这样的参数,您可以考虑将类似的元数据存储在单独的 table 中,然后使用 'Database Argument Setter' 插件获取它。
例如管道可以是:
'Database Argument Setter' -> 'Database source' -> (你管道的其他插件) -> 'Database Action'
'Database Argument Setter' 是查询元数据 table 的时间戳并将其存储为该管道的运行时参数。
pipeline末尾的'Database Action'是用本次pipeline最新加载数据的timestamp更新元数据table,以便下次pipeline可以从这个时间戳。