有没有一种简单的方法可以在不考虑未来价值和没有时移的情况下平滑曲线？

Question

我有一个 Unix 时间序列 (x)，它每分钟生成一个关联的信号值 (y)，删除第一个值并附加一个新值。我试图在不损失时间准确性的情况下平滑生成的曲线，特别强调将写入数据库的平滑曲线的最终值。我希望能够在相当大的程度上调整平滑度。

我已经研究（作为数学外行，或多或少）所有我能找到并且我能掌握的选项。我遇到了 Savitzki Golay，它看起来很完美，直到我意识到它在过去的数据上运行良好，但如果没有未来数据可用于平滑，则无法产生可靠的最终值。我试过很多其他的方法都产生了结果，但无法像 Savgol 那样进行调整。

import pandas as pd
from bokeh.plotting import figure, show, output_file
from bokeh.layouts import column
from math import pi
from scipy.signal import savgol_filter
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from scipy.interpolate import splrep, splev
from scipy.ndimage import gaussian_filter1d
from scipy.signal import lfilter
from scipy.interpolate import UnivariateSpline
import matplotlib.pyplot as plt

df_sim = pd.read_csv("/home/20190905_Signal_Smooth_Test.csv")

#sklearn Polynomial*****************************************
poly = PolynomialFeatures(degree=4)
X = df_sim.iloc[:, 0:1].values
print(X)
y = df_sim.iloc[:, 1].values
print(y)
X_poly = poly.fit_transform(X)
poly.fit(X_poly, y)
lin2 = LinearRegression()
lin2.fit(X_poly, y)
# Visualising the Polynomial Regression results
plt.scatter(X, y, color='blue')
plt.plot(X, lin2.predict(poly.fit_transform(X)), color='red')
plt.title('Polynomial Regression')
plt.xlabel('Time')
plt.ylabel('Signal')
plt.show()

#scipy interpolate********************************************
bspl = splrep(df_sim['timestamp'], df_sim['signal'], s=5)
bspl_y = splev(df_sim['timestamp'], bspl)
df_sim['signal_spline'] = bspl_y

#scipy gaussian filter****************************************
smooth = gaussian_filter1d(df_sim['signal'], 3)
df_sim['signal_gauss'] = smooth

#scipy lfilter************************************************
n = 5  # the larger n is, the smoother curve will be
b = [1.0 / n] * n
a = 1
histo_filter = lfilter(b, a, df_sim['signal'])
df_sim['signal_lfilter'] = histo_filter
print(df_sim)

#scipy UnivariateSpline**************************************
s = UnivariateSpline(df_sim['timestamp'], df_sim['signal'], s=5)

xs = df_sim['timestamp']
ys = s(xs)
df_sim['signal_univariante'] = ys

#scipy savgol filter**************************************** 
sg = savgol_filter(df_sim['signal'], 11, 3)
df_sim['signal_savgol'] = sg

df_sim['date'] = pd.to_datetime(df_sim['timestamp'], unit='s')

#plotting it all********************************************
print(df_sim)
w = 60000
TOOLS = "pan,wheel_zoom,box_zoom,reset,save"
p = figure(x_axis_type="datetime", tools=TOOLS, plot_width=1000, plot_height=250,
            title=f"Various Signals y vs Timestamp x")
p.xaxis.major_label_orientation = pi / 4
p.grid.grid_line_alpha = 0.9
p.line(x=df_sim['date'], y=df_sim['signal'], color='green')
p.line(x=df_sim['date'], y=df_sim['signal_spline'], color='blue')
p.line(x=df_sim['date'], y=df_sim['signal_gauss'], color='red')
p.line(x=df_sim['date'], y=df_sim['signal_lfilter'], color='magenta')
p.line(x=df_sim['date'], y=df_sim['signal_univariante'], color='yellow')

p1 = figure(x_axis_type="datetime", tools=TOOLS, plot_width=1000, plot_height=250,
            title=f"Savgol vs Signal")
p1.xaxis.major_label_orientation = pi / 4
p1.grid.grid_line_alpha = 0.9
p1.line(x=df_sim['date'], y=df_sim['signal'], color='green')
p1.line(x=df_sim['date'], y=df_sim['signal_savgol'], color='blue')

output_file("signal.html", title="Signal Test")
show(column(p, p1))  # open a browser

我希望结果类似于 Savitzky Golay，但数据系列的最终平滑值有效。 None 的其他方法在调整平滑度方面具有相同的灵活性。大多数其他方法将曲线向右移动。我可以提供csv文件进行测试。

Answer 1

这实际上取决于您平滑数据的原因。每种平滑方法都会有副作用，例如让某些 'noise' 比其他的更多。研究 'phase response of filtering'.

避免对称过滤器末尾数据丢失问题的一种常用技术是仅提前几个点预测数据并使用它。例如，如果您使用 5 项移动平均滤波器，则在计算最终值时将丢失 2 个数据点。

要预测这两点，你可以使用pmdarima模块中的auto_arima()函数，或者查看fbprophet模块（我觉得这个模块非常适合这种情况）。

有没有一种简单的方法可以在不考虑未来价值和没有时移的情况下平滑曲线？

is there a simple method to smooth a curve without taking into account future values and without a time shift?

python

numpy

scipy

smoothing

pandas