拟合分段线性函数时的曲线拟合优化误差

Curvefitting optimization error when fitting piecewise linear function

我在两个数组中有一些数据,其中似乎有中断。我希望我的代码能够找出在 scipy 中分段使用的中断位置。这是我拥有的:

from scipy import optimize
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

x = np.array([7228,7620,7730,7901,8139,8370,8448,8737,8824,9089,9233,9321,9509,9568,9642,9756,9915,10601,10942], dtype=np.float)
y= np.array([.874,.893,.8905,.8916,.9095,.9142,.9109,.9185,.9169,.9251,.9290,.9304,.9467,.9378,0.9464,0.9508,0.9583,0.9857,0.9975],dtype=np.float)

def piecewise_linear(x, x0, y0, k1, k2):
    return np.piecewise(x, [x < x0], [lambda x:k1*x + y0-k1*x0, lambda x:k2*x + y0-k2*x0])

p , e = optimize.curve_fit(piecewise_linear, x, y)
perr = np.sqrt(np.diag(e))
xd = np.linspace(7228, 11000, 3000)
plt.plot(x, y, "o")
plt.plot(xd, piecewise_linear(xd, *p))

我的问题是如果我 运行 这个,我得到一个错误,“OptimizeWarning:无法估计参数的协方差 category=OptimizeWarning)”。不确定如何解决这个问题?有没有办法将初始参数输入此函数以帮助它收敛或类似?

请注意,我确实意识到我可以使用的另一种方法是插值并找到我的数据的二阶导数。我已经这样做了,但是因为我的数据不是均匀分布的/y 轴数据有一些错误我有兴趣让它以这种方式工作以及用于统计目的。所以,要明确一点,我在这里想要的是两条线的参数 (slope/intercept) 和拐点。 (理想情况下,我也希望在这些问题上也出现错误,但不确定这种方法是否可行。)提前致谢!

代码运行良好,只有初始值导致问题。

默认情况下 curve_fit 以所有参数设置为 1 开始。因此,x0 开始时超出数据中 x 的范围,优化器无法计算合理的梯度。 这个小修改将解决问题:

# make sure initial x0 and y0 are in range of the data
p0 = [np.mean(x), np.mean(y), 1, 1]

p , e = optimize.curve_fit(piecewise_linear, x, y, p0)  # set initial parameter estimates
perr = np.sqrt(np.diag(e))
xd = np.linspace(7228, 11000, 3000)
plt.plot(x, y, "o")
plt.plot(xd, piecewise_linear(xd, *p))

print(p)  # [  9.32099947e+03   9.32965835e-01   2.58225121e-05   4.05400820e-05]
print(np.diag(e))  # [  4.56978067e+04   5.52060368e-05   3.88418404e-12   7.05010755e-12]

可能您的软件使用从初始猜测开始的迭代方法。通常,最初的猜测是这些方法的弱点。

如果你想克服这种困难,使用不需要初始猜测的非迭代方法。如果非迭代法的拟合准则不方便,还是先用非迭代法求出第一个解。然后使用经典的迭代方法,从最先找到的解决方案开始。

例如,由于在论文第 12-13 页给出的非常简单的算法(不是迭代的,没有初始猜测)获得了下一个结果:https://fr.scribd.com/document/380941024/Regression-par-morceaux-Piecewise-Regression-pdf