复制原始数据是否有助于为构建模型制作更多数据?
Does it help to duplicate original data in order to make more data for building model?
我刚收到一道面试题。
"Assume you want to build a statistical or machine learning model, but you have very limited data on hand. Your boss told you can duplicate original data several times, to make more data for building the model"有帮助吗?
直觉上,它没有帮助,因为复制原始数据不会创建更多 "information" 来提供模型。
但是有没有人可以更统计地解释一下?谢谢
考虑例如方差。具有重复数据的数据集将具有完全相同的方差 - 之后您没有更精确的分布估计。
但是,也有一些例外。例如 bootstrap 验证有助于评估您的模型,但您的数据很少。
嗯,这取决于 "duplicating the data" 的确切含义。
如果多次精确复制整个数据集,则基于最大似然的方法(与许多常用模型一样)必须找到完全相同的结果,因为复制数据的对数似然函数是正好是未重复数据的对数似然的倍数,因此具有相同的最大值。 (此论点不适用于不基于似然函数的方法;我相信 CART 和其他树模型以及 SVM 都是此类模型。在那种情况下,您将不得不得出不同的论点。)
但是,如果通过复制,意味着复制分类问题中的正例(这很常见,因为反例通常比正例多得多),那么这确实有所不同,因为似然函数已修改。
此外,如果一个意思是自举,那么这也会有所不同。
PS。在 stats.stackexchange.com.
上,您可能会对这个问题更感兴趣
我刚收到一道面试题。
"Assume you want to build a statistical or machine learning model, but you have very limited data on hand. Your boss told you can duplicate original data several times, to make more data for building the model"有帮助吗?
直觉上,它没有帮助,因为复制原始数据不会创建更多 "information" 来提供模型。
但是有没有人可以更统计地解释一下?谢谢
考虑例如方差。具有重复数据的数据集将具有完全相同的方差 - 之后您没有更精确的分布估计。
但是,也有一些例外。例如 bootstrap 验证有助于评估您的模型,但您的数据很少。
嗯,这取决于 "duplicating the data" 的确切含义。
如果多次精确复制整个数据集,则基于最大似然的方法(与许多常用模型一样)必须找到完全相同的结果,因为复制数据的对数似然函数是正好是未重复数据的对数似然的倍数,因此具有相同的最大值。 (此论点不适用于不基于似然函数的方法;我相信 CART 和其他树模型以及 SVM 都是此类模型。在那种情况下,您将不得不得出不同的论点。)
但是,如果通过复制,意味着复制分类问题中的正例(这很常见,因为反例通常比正例多得多),那么这确实有所不同,因为似然函数已修改。
此外,如果一个意思是自举,那么这也会有所不同。
PS。在 stats.stackexchange.com.
上,您可能会对这个问题更感兴趣