时间序列 DFT 信号聚类

Time Series DFT Signals Clustering

我有一些时间序列数据集,我想将它们转换为 dft 信号以降低维度。转换为dft后,我想用k-means算法对得到的dft数据集进行聚类。

既然 dft 信号包含一个虚数,如何聚类它们?

您可以简单地将虚部视为向量中的另一个分量。在其他应用中,你会想忽略它!

但是您将面临其他更严峻的挑战。

数据挖掘,尤其是聚类,很少像应用函数 a (dft) 和函数 b (k-means) 然后得到结果那样简单,万岁。抱歉 - 这不是探索性数据挖掘的工作方式。

首先,对于很多时间序列,DFT 根本没有帮助。在其他人身上,您首先必须进行适当的重采样或分割,或者摆脱季节性等无趣的影响。即使 DFT 有效,它也可能会强调采样频率或某些干扰等伪像。

然后您将 运行 陷入一个主要问题:k 均值基于所有属性都具有相同重要性的假设。而 DFT 基于完全相反的想法:第一个分量捕获大部分信号,后面的分量仅与它有微小的偏差(这就是使用它作为降维的动机)。 因此,基于这种直觉,您可能永远 不应该 在 DFT 系数上应用 k-means。同时,数据挖掘一再表明 "statistical nonsense" 的 appfoaches 仍然可以提供有用的结果...因此您可以尝试,但请谨慎验证您的结果,避免过于热情或乐观。

在FFT的帮助下,它将数据集转换为dft信号。它有助于计算每个小数据集的 DFT。