如何 select Vertex AI AutoML 时间序列模型中的目标列

How to select a target column in a Vertex AI AutoML time series model

我正在使用时间序列 AutoML 模型测试 Google Cloud Vertex AI。

我从 Biguery table 创建了一个数据集,它有 2 列,一列是时间戳,另一列是我要预测的数值:

salesorderdate 是我的 TIMESTAMP 列,orders 是我要预测的值。

当我进行下一步时,我无法将 select orders 作为我的预测值,此字段没有可用的选项:

我在这里错过了什么?在这种情况下,时间序列值 肯定是 的目标值吗?是否期望这里有更多的字段,并且实际上可以通过这种方式将额外的特征作为列添加到时间序列模型中吗?

根据你的问题,我猜你正在使用“预测模型”。请注意,它处于“预览”状态 Product launch stage 并具有该事实的所有后果。

在文档中,您可能会找到 Training data structure 以下信息:

  • There must be at least two and no more than 1,000 columns.

For datasets that train AutoML models, one column must be the target, and there must be at least one feature available to train the model. If the training data does not include the target column, Vertex AI cannot associate the training data with the desired result.

我想您正在使用 AutoML 模型,所以在这种情况下,您需要在数据集中包含 3 列:

  • 时间列 - 用于放置该行表示的观察值的时间
  • 时间序列标识符列为“预测训练数据通常包括多个时间序列”
  • 目标列是模型应该学会预测的值。

如果你想预测 orders 这应该是目标列。但在您选择此目标之前,此“时间序列标识符列”已在上一步中选择,因此您没有可用的列可供选择。

因此您需要向 BigQuery table 添加至少一个额外的列,将用作时间序列列。您可以在每一行中添加具有相同值的数据集列。 Forecasting data preparation best practices:

中提出了这个概念

You can train a forecasting model on a single time series (in other words, the time series identifier column contains the same value for all rows). However, Vertex AI is a better fit for training data that contains two or more time series. For best results, you should have at least 10 time series for every column used to train the model.

根据 AutoML,目标列不能为空。

Requirements for the target column

The target column must conform to the following requirements:

  • It must be either Categorical or Numerical.
  • If it is Categorical, it must have at least 2 and no more than 500 distinct values.
  • It cannot be nullable