预测活跃成员变为不活跃的可能性?

predicting the possibility of Active members becoming Inactive?

我有一个会员数据库,有些活跃,有​​些不活跃。

我想预测活跃成员变成不活跃成员的可能性?

我是否应该 运行 非活跃成员的 AML(不拆分)以及当我发布模型时我传递给活跃成员?

我之前尝试过很多 AML 数据集,但是通常你会有一列包含你想要预测的值(活动-非活动)(真-假)(红-黑-白),但我从未尝试过只有给你的模型带来一个价值。

您需要使用活跃和不活跃的成员来训练您的模型。我会拆分您的数据集,以便在您的训练和测试集中都有活跃和不活跃成员的示例。

让我们讨论一下为什么要拆分数据。请记住,在监督学习中,您需要带有标记示例的数据。例如,假设我想根据房屋的面积和邮政编码预测房屋的成本。为了训练我的模型,我需要现有房屋的数据集及其面积、邮政编码和价格,如下所示:

SquareFootage 邮政编码价格
2000 48075 200,000
3000 48075 300,000
4000 48075 400,000
5000 48075 500,000

在这个例子中,面积和邮政编码是我的特征(影响你想要预测的东西),价格是我的标签(你想要预测的东西)。我可以在上面的一些数据上训练一个模型,然后使用经过训练的模型来预测价格,只给出一个平方英尺和邮政编码。

所以,我拆分数据的原因是为了提供大部分数据来训练模型(它将处理数据以找出“训练模型”模块中特征和标签之间的相关性),但是我们想要保留一些标记数据来测试我们构建的模型。然后,我们可以将经过训练的模型生成的价格值与测试数据集中(在“评分模型”模块中)中的实际标记价格值进行比较,以查看模型的性能如何。 (我们不能对两者使用相同的数据......模型是使用训练数据构建的,因此它会非常准确地执行;我们保留未使用的数据进行测试。)

因此,对于您的示例,我会尝试随机拆分,以便有活跃和不活跃成员的示例(即您的标签 - 不活跃或活跃),您还需要提供影响 activity。