DVC - 制作预定的 csv 转储

DVC - make scheduled csv dumps

假设我们有一些数据库(任何支持 csv 转储的数据库),实时收集原始数据以供在 ML 中进一步使用。 另一方面,我们有 DVC,可以处理 csv 文件。

我想使用日期时间参数将已存储 SELECT 的预定 运行 组织到该数据库(并且还支持手动 运行),以制作新的 csv 文件,以及将它们发送到 DVC。

在我找到的 DVC 文档和示例中,csv 文件已经存在。

我能否通过 DVC 本身与数据库进行这种交互,或者我出错了,并且有一个单独的 csv 转储工具?

这个过程有 3 个步骤:

  1. 创建 CSV 转储。许多数据库都有这些工具,但 DVC 本身不支持这些工具。
  2. 对 CSV 转储进行版本控制并将其移动到某个存储空间。 DVC 完成这项工作。
  3. 安排定期转储。您可以使用 Cron(容易)、AirFlow(不容易)或 periodical jobs in GitHub Actions/GitLab CI/CD. Another project from the DVC team can help with CI/CD option: https://cml.dev.