找到具有最多突变的最长回文 DNA 子序列
Find the longest palindromic DNA sub-sequence that has the most mutations on it
我一直在尝试为大学做动态规划作业,但到目前为止我没有成功。
问题:
给定一个 DNA 字符串和一个突变位置列表(例如,片段 0 和 2 是突变),找到包含最多突变的最长回文子序列。
输入:0到2000个字符的字符串S;满足 0<=N<=|S| 的整数 N和突变的 N 个位置(从 0 到 |S| 的数字)。
输出:一个整数,表示包含最大突变数的最长回文子序列的大小。
示例:
输入:CAGACAT 0
输出:5
输入:GATTACA 1 0
输出:1
输入:GATTACA 3 0 4 5
输出:3
输入:TATACTATA 2 4 8
输出:7
我们必须用C来编写,但我真正需要的是想法,任何语言或伪代码对我来说都很好。
我找到 LPS 的代码(C 语言)
int find_lps(char *input)
{
int len = strlen(input), i, cur_len;
int c[len][len];
for (i = 0; i < len; i++)
c[i][i] = 1;
for (cur_len = 1; cur_len < len; cur_len++) {
for (i = 0; i < len - cur_len; i++) {
int j = i + cur_len;
if (input[i] == input[j]) {
c[i][j] = c[i + 1][j - 1] + 2;
} else {
c[i][j] = max(c[i + 1][j], c[i][j - 1]);
}
}
}
return c[0][len - 1];
}
我尝试为突变做的事情:
1- 创建 LPS 更改位置的数组。那行不通,真的,我不知道该怎么做。
有关问题的更多详细信息:
如果你有 n 个回文子序列,它们内部的突变大小相同,我需要其中最长的一个。鉴于您有 n 个带有 X 突变的回文子序列(我们有 M 个突变),考虑到您没有带有 M 个突变的回文子序列,我需要最长的 X 突变回文子序列。如果你这样做,那么你应该选择另一个子序列,即使它更短。因此,第一个标准:回文子序列中的大多数突变。如果我们有相同的数量,那么最长的子序列。
感谢任何帮助,谢谢。
让我们定义 C[i][j] 来存储 2 个值:
1- 子串S(i,j)中包含最多突变的最长回文子序列的长度,记为C[i][ j].len
2- 包含最多突变的子串S(i,j)中最长回文子序列的突变数,记为C[i ][j].ms
那么问题的结果就是C[0][|S|-1].len
注:m[i] = 1表示字符s[i]是突变,否则m[i] = 0
这是用 c++ 编写的完整代码:
#include <iostream>
#include <string>
using namespace std;
string s;
int m[2001];
struct Node {
int ms;//number of mutations
int len;
Node() {
ms = len = 0;
}
Node(int v1,int v2) {
ms = v1;
len = v2;
}
};
Node C[2001][2001];
Node getBestNode(Node n1, Node n2) {
if (n1.ms > n2.ms)
return n1;
if (n1.ms < n2.ms)
return n2;
if (n1.len > n2.len)
return n1;
if (n1.len < n2.len)
return n2;
return n1;
}
void init() {
for (int i = 0; i < 2001; i++) {
m[i] = 0;
for (int j = 0; j < 2001; j++) C[i][j] = Node(0,0);
}
}
void solve() {
int len = s.length();
// initializing the ranges of length = 1
for (int i = 0; i < len; i++)
C[i][i] = Node( m[i],1 );
// initializing the ranges of length = 2
for (int i = 0; i < len - 1; i++)
if (s[i] == s[i + 1])
C[i][i + 1] = Node(m[i] + m[i + 1],2);
else if (m[i] || m[i + 1])
C[i][i + 1] = Node(1,1) ;
// for ranges of length >= 3
for (int cur_len = 3; cur_len <= len; cur_len++)
for (int i = 0; i <= len - cur_len; i++) {
int j = i + cur_len - 1;
C[i][j] = getBestNode(C[i + 1][j], C[i][j-1]);
if (s[i] == s[j]) {
Node nn = Node(
C[i + 1][j - 1].ms + m[i] + m[j] ,
C[i + 1][j - 1].len + 2
);
C[i][j] = getBestNode(C[i][j], nn);
}
}
}
int main() {
int n;
cin >> s >> n;
init();//initializing the arrays with zeros
for (int i = 0; i < n; i++) {
int x; cin >> x;
m[x] = 1;
}
solve();
cout << C[0][s.length()-1].len << endl;
return 0;
}
函数 getBestNode() 通过考虑突变的数量然后是子序列的长度返回 2 个解决方案中的最佳解决方案。
注意:代码可以更短,但为了清楚起见,我这样做了。
我一直在尝试为大学做动态规划作业,但到目前为止我没有成功。
问题:
给定一个 DNA 字符串和一个突变位置列表(例如,片段 0 和 2 是突变),找到包含最多突变的最长回文子序列。
输入:0到2000个字符的字符串S;满足 0<=N<=|S| 的整数 N和突变的 N 个位置(从 0 到 |S| 的数字)。
输出:一个整数,表示包含最大突变数的最长回文子序列的大小。
示例:
输入:CAGACAT 0
输出:5
输入:GATTACA 1 0
输出:1
输入:GATTACA 3 0 4 5
输出:3
输入:TATACTATA 2 4 8
输出:7
我们必须用C来编写,但我真正需要的是想法,任何语言或伪代码对我来说都很好。
我找到 LPS 的代码(C 语言)
int find_lps(char *input)
{
int len = strlen(input), i, cur_len;
int c[len][len];
for (i = 0; i < len; i++)
c[i][i] = 1;
for (cur_len = 1; cur_len < len; cur_len++) {
for (i = 0; i < len - cur_len; i++) {
int j = i + cur_len;
if (input[i] == input[j]) {
c[i][j] = c[i + 1][j - 1] + 2;
} else {
c[i][j] = max(c[i + 1][j], c[i][j - 1]);
}
}
}
return c[0][len - 1];
}
我尝试为突变做的事情:
1- 创建 LPS 更改位置的数组。那行不通,真的,我不知道该怎么做。
有关问题的更多详细信息: 如果你有 n 个回文子序列,它们内部的突变大小相同,我需要其中最长的一个。鉴于您有 n 个带有 X 突变的回文子序列(我们有 M 个突变),考虑到您没有带有 M 个突变的回文子序列,我需要最长的 X 突变回文子序列。如果你这样做,那么你应该选择另一个子序列,即使它更短。因此,第一个标准:回文子序列中的大多数突变。如果我们有相同的数量,那么最长的子序列。
感谢任何帮助,谢谢。
让我们定义 C[i][j] 来存储 2 个值:
1- 子串S(i,j)中包含最多突变的最长回文子序列的长度,记为C[i][ j].len
2- 包含最多突变的子串S(i,j)中最长回文子序列的突变数,记为C[i ][j].ms
那么问题的结果就是C[0][|S|-1].len
注:m[i] = 1表示字符s[i]是突变,否则m[i] = 0
这是用 c++ 编写的完整代码:
#include <iostream>
#include <string>
using namespace std;
string s;
int m[2001];
struct Node {
int ms;//number of mutations
int len;
Node() {
ms = len = 0;
}
Node(int v1,int v2) {
ms = v1;
len = v2;
}
};
Node C[2001][2001];
Node getBestNode(Node n1, Node n2) {
if (n1.ms > n2.ms)
return n1;
if (n1.ms < n2.ms)
return n2;
if (n1.len > n2.len)
return n1;
if (n1.len < n2.len)
return n2;
return n1;
}
void init() {
for (int i = 0; i < 2001; i++) {
m[i] = 0;
for (int j = 0; j < 2001; j++) C[i][j] = Node(0,0);
}
}
void solve() {
int len = s.length();
// initializing the ranges of length = 1
for (int i = 0; i < len; i++)
C[i][i] = Node( m[i],1 );
// initializing the ranges of length = 2
for (int i = 0; i < len - 1; i++)
if (s[i] == s[i + 1])
C[i][i + 1] = Node(m[i] + m[i + 1],2);
else if (m[i] || m[i + 1])
C[i][i + 1] = Node(1,1) ;
// for ranges of length >= 3
for (int cur_len = 3; cur_len <= len; cur_len++)
for (int i = 0; i <= len - cur_len; i++) {
int j = i + cur_len - 1;
C[i][j] = getBestNode(C[i + 1][j], C[i][j-1]);
if (s[i] == s[j]) {
Node nn = Node(
C[i + 1][j - 1].ms + m[i] + m[j] ,
C[i + 1][j - 1].len + 2
);
C[i][j] = getBestNode(C[i][j], nn);
}
}
}
int main() {
int n;
cin >> s >> n;
init();//initializing the arrays with zeros
for (int i = 0; i < n; i++) {
int x; cin >> x;
m[x] = 1;
}
solve();
cout << C[0][s.length()-1].len << endl;
return 0;
}
函数 getBestNode() 通过考虑突变的数量然后是子序列的长度返回 2 个解决方案中的最佳解决方案。
注意:代码可以更短,但为了清楚起见,我这样做了。