从片段集中推断适配器序列

Infer adapter sequence from set of fragments

我有一组 S 字符串,这些字符串是使用特定的接头片段从 DNA 测序中生成的。这意味着 S 中的所有字符串都包含一个后缀,该后缀与(由于排序错误)适配器序列的前缀大致匹配。仅给定集合 S,我如何推断最可能用于生成 S 的衔接子序列?

集合 S 非常大 - 大约有 100 万个片段,每个片段的长度为 50 个字符。我知道在集合 S 上构建广义后缀树将极大地帮助解决这个问题,但我不确定用于查找最可能的适配器序列的方法。

也许这会满足您的需求:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0164228