如何在 GCP 中使用 AutoML 来预测罕见事件?

How can I use AutoML in GCP to predict rare event?

如题,我尝试在Google Cloud Platform 中使用AutoML 来预测一些罕见的结果。 例如,假设我有 5 类自变量:年龄、居住区域、收入、家庭人数和性别。我想预测一个叫做“购买”的罕见事件。 购买非常少,因为对于 10,000 个数据点,我只会获得 3-4 次购买。幸运的是,我得到的负载不仅仅是 10,000 个数据点。 (我得到了一亿个数据点)

我曾尝试使用 AutoML 对最佳组合进行建模,但由于这是一个罕见的结果,该模型只为我预测这 5 个类别中所有类型组合的购买次数为 0。请问我可以知道如何在 AutoML 中解决这个问题吗?

在 Cloud AutoML 中,模型预测和模型评估指标取决于设置的置信度阈值。默认情况下,在 Cloud AutoML 中,置信度阈值为 0.5。该值可以在“模型”部分的“评估”选项卡中更改。要评估您的模型,请更改置信度阈值以查看精度和召回率受到的影响。最佳置信度阈值取决于您的用例。 Here 是一些示例场景,用于了解如何使用评估指标。在您的情况下,必须最大化召回指标(这会导致更少的假阴性)才能正确预测购买列。

此外,训练数据必须由目标变量中每个 class 的相当数量的示例组成,以便模型能够以更高的置信度预测值。由于您的训练数据严重偏斜,因此必须对数据进行预处理(例如重采样)以处理偏斜。