如何在 GCP 中使用 AutoML 来预测罕见事件？

How can I use AutoML in GCP to predict rare event?

如题，我尝试在Google Cloud Platform 中使用AutoML 来预测一些罕见的结果。例如，假设我有 5 类自变量：年龄、居住区域、收入、家庭人数和性别。我想预测一个叫做“购买”的罕见事件。购买非常少，因为对于 10,000 个数据点，我只会获得 3-4 次购买。幸运的是，我得到的负载不仅仅是 10,000 个数据点。（我得到了一亿个数据点）

我曾尝试使用 AutoML 对最佳组合进行建模，但由于这是一个罕见的结果，该模型只为我预测这 5 个类别中所有类型组合的购买次数为 0。请问我可以知道如何在 AutoML 中解决这个问题吗？

在 Cloud AutoML 中，模型预测和模型评估指标取决于设置的置信度阈值。默认情况下，在 Cloud AutoML 中，置信度阈值为 0.5。该值可以在“模型”部分的“评估”选项卡中更改。要评估您的模型，请更改置信度阈值以查看精度和召回率受到的影响。最佳置信度阈值取决于您的用例。 Here 是一些示例场景，用于了解如何使用评估指标。在您的情况下，必须最大化召回指标（这会导致更少的假阴性）才能正确预测购买列。

此外，训练数据必须由目标变量中每个 class 的相当数量的示例组成，以便模型能够以更高的置信度预测值。由于您的训练数据严重偏斜，因此必须对数据进行预处理（例如重采样）以处理偏斜。

如何在 GCP 中使用 AutoML 来预测罕见事件？

How can I use AutoML in GCP to predict rare event?

machine-learning

google-cloud-platform

automl