从片段集中推断适配器序列
Infer adapter sequence from set of fragments
我有一组 S 字符串,这些字符串是使用特定的接头片段从 DNA 测序中生成的。这意味着 S 中的所有字符串都包含一个后缀,该后缀与(由于排序错误)适配器序列的前缀大致匹配。仅给定集合 S,我如何推断最可能用于生成 S 的衔接子序列?
集合 S 非常大 - 大约有 100 万个片段,每个片段的长度为 50 个字符。我知道在集合 S 上构建广义后缀树将极大地帮助解决这个问题,但我不确定用于查找最可能的适配器序列的方法。
我有一组 S 字符串,这些字符串是使用特定的接头片段从 DNA 测序中生成的。这意味着 S 中的所有字符串都包含一个后缀,该后缀与(由于排序错误)适配器序列的前缀大致匹配。仅给定集合 S,我如何推断最可能用于生成 S 的衔接子序列?
集合 S 非常大 - 大约有 100 万个片段,每个片段的长度为 50 个字符。我知道在集合 S 上构建广义后缀树将极大地帮助解决这个问题,但我不确定用于查找最可能的适配器序列的方法。