如果数据集具有多个特征,您如何知道它是否适合线性回归?
How do you know if a data set is right for linear regression if it has multiple features?
如果它只有一项功能,那就很容易了。画个图吧。
其中一条记录看起来像 (18, 15)。简单的。但是,如果我们有多个特征可以为图形添加更多维度,对吗?那么,如果无法绘制数据集,如何可视化数据集并确定线性回归是否适用?
顺便说一下,我知道有 whole cluster of algorithms 可供选择,线性回归可能不是最适合特定问题的方法。我是从 我正在学习这个 角度而不是 做这个 的最好方法是什么。
您可以计算一个误差(例如均方误差)来显示您的模型对数据的执行情况。您可以将此错误与将模型拟合到更复杂的函数时得到的错误进行比较。有指标来比较您的模型总是很重要的。
另请参阅 Andrew Ng 关于多变量线性回归主题的课程:
https://www.coursera.org/learn/machine-learning/outline?module=6okke
所以线性回归假设您的数据即使在多个维度上也是线性的。除非你使用一些方法来减少高维数据,否则就不可能将高维数据可视化。 PCA 可以做到这一点,但将其降低到 2 维将无济于事。
您应该对您的模型进行交叉验证,看看您是否对数据进行了合适的拟合。如果不是,则意味着线性回归对您的数据不利。 .
如果它只有一项功能,那就很容易了。画个图吧。
其中一条记录看起来像 (18, 15)。简单的。但是,如果我们有多个特征可以为图形添加更多维度,对吗?那么,如果无法绘制数据集,如何可视化数据集并确定线性回归是否适用?
顺便说一下,我知道有 whole cluster of algorithms 可供选择,线性回归可能不是最适合特定问题的方法。我是从 我正在学习这个 角度而不是 做这个 的最好方法是什么。
您可以计算一个误差(例如均方误差)来显示您的模型对数据的执行情况。您可以将此错误与将模型拟合到更复杂的函数时得到的错误进行比较。有指标来比较您的模型总是很重要的。
另请参阅 Andrew Ng 关于多变量线性回归主题的课程: https://www.coursera.org/learn/machine-learning/outline?module=6okke
所以线性回归假设您的数据即使在多个维度上也是线性的。除非你使用一些方法来减少高维数据,否则就不可能将高维数据可视化。 PCA 可以做到这一点,但将其降低到 2 维将无济于事。
您应该对您的模型进行交叉验证,看看您是否对数据进行了合适的拟合。如果不是,则意味着线性回归对您的数据不利。 .