为什么SVD应用于线性回归

Why is SVD applied on Linear Regression

我在这些幻灯片上无法理解为什么将 SVD 应用于最小二乘问题?

然后是这样的:

这里我不明白为什么要取残差的导数,那个图中的想法是取y的投影来最小化误差吗?

这是我的拙劣尝试来解释这个...
第一张幻灯片还没有解释 SVD 与 LS 的关系。但是它说只要X是一个"standard"矩阵,就可以用一个奇异矩阵(只有对角线元素不为空)来转换问题——这样计算起来很方便。
幻灯片 2 显示了使用奇异矩阵进行的计算。
说明在幻灯片 3 上:最小化 r 的范数等同于最小化它的平方,即 RSS(因为 x -> x*x 是 x>0 的递增函数)。最小化 RSS:与最小化任何 "good" 函数相同,您对其求导,然后将导数等于 0。