如何检测数据集中的相同或重复数据模式 (python)

Question

如何检测大型数据集中的重复数据块？

例如：我有一个测量数据集，其中包含一年中某一天测量的值。每秒说 10 次测量。现在我想确保每个数据集都是独一无二的。由于测量中的噪声，即使是相同的输入也会导致数值上非常不同的数据集。

但这似乎不是给定数据集的情况。例如。绘制信号显示在统计上极不可能出现的重复模式。

这个问题让我想起了两个文本文件的差异。是否有解决此问题的任何图书馆/既定方法？

编辑：数据结构是一个 csv：

Time (Seconds) | Sensor1 (Volt) | Sensor 2 (Volt) | ... | Sensor 10 (Volt)

我想检测这样的东西：

Time (Seconds) | Sensor1 (Volt) | Sensor 2 (Volt) | ... | Sensor 10 (Volt)
1 | 242.2 | 234.23 |...|
2 | 423.23| 33.00 |...|
3 | 100.00| 24.23  |...|

...

123 | 242.2 | 234.23 |...|
124 | 423.23| 33.00 |...|
125 | 100.00| 24.23  |...|

我要找的结果：

存在 x 个时间步长的重复模式。最大的相同数据集是从...到...。第二大从...到...

Answer 1

我找到了一个正确方向的包裹：https://stumpy.readthedocs.io 基序检测是主题。

Answer 2

如果您的重复模式确实相同，一种可能性是使用后缀树或后缀数组。它会告诉您重复了哪些模式、它们的长度以及每次出现的位置。

How to detect sameness or repeating data patterns in a dataset (python)