更改格式并合并来自 2 列的信息

Change format and combine info from 2 columns

第一次在这里发帖,请耐心等待!

我有一个看起来像这样的文件:

POS {ALLELE:COUNT}  
1   G:27    A:11
2   C:40    T:0
3   C:40    A:0
4   T:40    G:0
5   G:0 C:40
6   C:40    T:0
7   G:24    A:14
8   G:40    A:0
9   A:40    G:0
...

我想按照以下格式将每一行的第二列和第三列中的信息组合起来:“number[A],number[C],number[G],number[T]”,以便示例上面看起来像这样:

POS {ALLELE:COUNT}
1   11,0,27,0
2   0,40,0,0
3   0,40,0,0
4   0,0,0,40
5   0,40,0,0
6   0,40,0,0
7   14,0,24,0
8   0,0,40,0
9   40,0,0,0
...

任何关于如何做到这一点的想法将不胜感激!

我假设您的文件是常规文本文件(不是 csv 或分隔文件)并且 G:27 A:11 是该文本文件的一行。 对于每一行,您可以执行以下操作(我们将以第一行为例): 使用 strip 删除无用的空格 G:27 A:11.strip() 给出 G:27 A:11,然后 split 在空格上得到 ['G:27','A:11']。然后对于此列表中的每个元素,拆分 : 以获得等位基因类型及其计数。总而言之,它看起来像

resulting_table=[]
for line in file: #You can easily find how to read a file line by line
    split_line=line.strip().split(' ')
    A,T,G,C=0,0,0,0
    for pair in split_line:
        element=pair.split(':')
        if element[0]=='A':
             A=element[1]
        elif element[0]=='T':
             ...
    resulting_table.append([A,T,G,C])

给你!然后您可以轻松地将其转换为数据框或 numpy 数组

这绝对不是获得所需输出的最有效或优雅的方式,但对于 python 初学者来说是清楚易懂的

这是一个有效的方法:

lines = open('test.txt','r').read().splitlines()

place = {'A':0,'C':1,'G':2,'T':3}
counts = [[0 for _ in range(4)] for _ in range(len(lines[1:]))]
for i,row in enumerate(lines[1:]):
    for ct in row.split()[1:]:
        a,b = ct.split(':')
        counts[i][place[a]] = int(b)

out_str = '\n'.join([lines[0]] + ['{:<4}{},{},{},{}'.format(i+1,*ct) 
    for i,ct in enumerate(counts)])

with open('output.txt','w') as f:
    f.write(out_str)

生成的文件读取

POS {ALLELE:COUNT}  
1   11,0,27,0
2   0,40,0,0
3   0,40,0,0
4   0,0,0,40
5   0,40,0,0
6   0,40,0,0
7   14,0,24,0
8   0,0,40,0
9   40,0,0,0

sourse.txt

POS {ALLELE:COUNT}
1   G:27    A:11
2   C:40    T:0
3   C:40    A:0
4   T:40    G:0
5   G:0 C:40
6   C:40    T:0
7   G:24    A:14
8   G:40    A:0
9   A:40    G:0
import re

template = ('A', 'C', 'G', 'T')


def proc_line(line: str):
    
    index, *elements = re.findall(r'\S+', line)
    
    data = dict([*map(lambda x: x.split(':'), elements)])
    
    return f'{index}\t' + ','.join([data.get(item, '0') for item in template]) + '\n'


with open('source.txt', encoding='utf-8') as file:
    header, *lines = file.readlines()

with open('output.txt', 'w', encoding='utf-8') as new_file:
    new_file.writelines(
        [header] + list(map(proc_line, lines))
    )

output.txt

POS {ALLELE:COUNT}  
1   11,0,27,0
2   0,40,0,0
3   0,40,0,0
4   0,0,0,40
5   0,40,0,0
6   0,40,0,0
7   14,0,24,0
8   0,0,40,0
9   40,0,0,0
$ awk -F'[ :]+' '
    NR>1 {
        delete f
        f[] = 
        f[] = 
        [=10=] = sprintf("%s   %d,%d,%d,%d", , f["A"], f["C"], f["G"], f["T"])
   }
1' file
POS {ALLELE:COUNT}
1   11,0,27,0
2   0,40,0,0
3   0,40,0,0
4   0,0,0,40
5   0,40,0,0
6   0,40,0,0
7   14,0,24,0
8   0,0,40,0
9   40,0,0,0