是不是有些数据集不能预测?
Are some data sets just not predictive?
某些类型的数据集是否不能预测?
我自己当前的真实生活示例:我的目标是创建交叉销售保险产品的预测模型。例如。汽车保险到健康保险。
我的数据集主要由特征数据组成,比如他们生活在什么州,年龄,性别,汽车类型等...
我尝试了各种不同的模型,例如 XGboosted 树来正则化逻辑回归,但 AUC 无法超过 .65。
所以这让我想到 - 某些类型的数据集是否不能预测?
您如何帮助利益相关者理解这一点?
某些数据集的预测性可能不强。特别是如果您缺少占大部分差异的变量。如果不与主题专家交谈,很难说情况是否如此。话虽如此,模型很好而且很好,但我也会确保您花费大量时间来设计功能。通常,以正确的方式表示数据可能是工作模型和坏模型之间的区别,尤其是在树模型中。
某些类型的数据集是否不能预测?
我自己当前的真实生活示例:我的目标是创建交叉销售保险产品的预测模型。例如。汽车保险到健康保险。
我的数据集主要由特征数据组成,比如他们生活在什么州,年龄,性别,汽车类型等...
我尝试了各种不同的模型,例如 XGboosted 树来正则化逻辑回归,但 AUC 无法超过 .65。
所以这让我想到 - 某些类型的数据集是否不能预测? 您如何帮助利益相关者理解这一点?
某些数据集的预测性可能不强。特别是如果您缺少占大部分差异的变量。如果不与主题专家交谈,很难说情况是否如此。话虽如此,模型很好而且很好,但我也会确保您花费大量时间来设计功能。通常,以正确的方式表示数据可能是工作模型和坏模型之间的区别,尤其是在树模型中。