发现任意字符串中的每个模式并计算重复项
Discover every pattern in arbitrary string and counting duplicates
我想知道在任意字符串中查找模式并计算它们以获得最常见模式的最佳方法是什么。
基本上,我有一个时间序列,我将其翻译成有限字母表中的字母(假设有 20 个字母),从而创建了一个巨大的单个字符串。查找和计算模式的最佳方法是什么?参数可以用来限制作为模式搜索的字符数量,例如,最少4个,最多30个字符的模式。
后缀树是一种选择吗?或者是否有任何数据挖掘技术可以做到这一点?
https://en.m.wikipedia.org/wiki/Sequential_pattern_mining
Sequential pattern mining is a topic of data mining concerned with finding statistically relevant patterns between data examples where the values are delivered in a sequence.
然后您可以使用类似 fp-growth 的算法。
我想知道在任意字符串中查找模式并计算它们以获得最常见模式的最佳方法是什么。
基本上,我有一个时间序列,我将其翻译成有限字母表中的字母(假设有 20 个字母),从而创建了一个巨大的单个字符串。查找和计算模式的最佳方法是什么?参数可以用来限制作为模式搜索的字符数量,例如,最少4个,最多30个字符的模式。
后缀树是一种选择吗?或者是否有任何数据挖掘技术可以做到这一点?
https://en.m.wikipedia.org/wiki/Sequential_pattern_mining
Sequential pattern mining is a topic of data mining concerned with finding statistically relevant patterns between data examples where the values are delivered in a sequence.
然后您可以使用类似 fp-growth 的算法。