如何检测数据集中的相同或重复数据模式 (python)
How to detect sameness or repeating data patterns in a dataset (python)
如何检测大型数据集中的重复数据块?
例如:
我有一个测量数据集,其中包含一年中某一天测量的值。每秒说 10 次测量。
现在我想确保每个数据集都是独一无二的。由于测量中的噪声,即使是相同的输入也会导致数值上非常不同的数据集。
但这似乎不是给定数据集的情况。例如。绘制信号显示在统计上极不可能出现的重复模式。
这个问题让我想起了两个文本文件的差异。是否有解决此问题的任何图书馆/既定方法?
编辑:数据结构是一个 csv:
Time (Seconds) | Sensor1 (Volt) | Sensor 2 (Volt) | ... | Sensor 10 (Volt)
我想检测这样的东西:
Time (Seconds) | Sensor1 (Volt) | Sensor 2 (Volt) | ... | Sensor 10 (Volt)
1 | 242.2 | 234.23 |...|
2 | 423.23| 33.00 |...|
3 | 100.00| 24.23 |...|
...
123 | 242.2 | 234.23 |...|
124 | 423.23| 33.00 |...|
125 | 100.00| 24.23 |...|
我要找的结果:
存在 x 个时间步长的重复模式。最大的相同数据集是从...到...。第二大从...到...
我找到了一个正确方向的包裹:https://stumpy.readthedocs.io
基序检测是主题。
如果您的重复模式确实相同,一种可能性是使用后缀树或后缀数组。
它会告诉您重复了哪些模式、它们的长度以及每次出现的位置。
在python中:Suffix arrays: How to compute them fast with Python
如何检测大型数据集中的重复数据块?
例如: 我有一个测量数据集,其中包含一年中某一天测量的值。每秒说 10 次测量。 现在我想确保每个数据集都是独一无二的。由于测量中的噪声,即使是相同的输入也会导致数值上非常不同的数据集。
但这似乎不是给定数据集的情况。例如。绘制信号显示在统计上极不可能出现的重复模式。
这个问题让我想起了两个文本文件的差异。是否有解决此问题的任何图书馆/既定方法?
编辑:数据结构是一个 csv:
Time (Seconds) | Sensor1 (Volt) | Sensor 2 (Volt) | ... | Sensor 10 (Volt)
我想检测这样的东西:
Time (Seconds) | Sensor1 (Volt) | Sensor 2 (Volt) | ... | Sensor 10 (Volt)
1 | 242.2 | 234.23 |...|
2 | 423.23| 33.00 |...|
3 | 100.00| 24.23 |...|
...
123 | 242.2 | 234.23 |...|
124 | 423.23| 33.00 |...|
125 | 100.00| 24.23 |...|
我要找的结果:
存在 x 个时间步长的重复模式。最大的相同数据集是从...到...。第二大从...到...
我找到了一个正确方向的包裹:https://stumpy.readthedocs.io 基序检测是主题。
如果您的重复模式确实相同,一种可能性是使用后缀树或后缀数组。 它会告诉您重复了哪些模式、它们的长度以及每次出现的位置。
在python中:Suffix arrays: How to compute them fast with Python