拆分后如何使用 awk 到列末尾的 select/remove 字段？

Question

在一个包含特定列信息的文件中，我想从文件末尾恰好删除 5 个字段（即 :PG:PB:PI:PW:PC（分隔符为 ':'）行，不是从头开始。

GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC
GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC
GT:AD:DP:GQ:PGT:PID:PL:PG:PB:PI:PW:PC
GT:AD:DP:GQ:PGT:PID:PL:PG:PB:PI:PW:PC

假设以上数据来自column #3文件，我写了如下代码：

awk 'BEGIN{FS=OFS="\t"} { split(, a,":")} {print (, , a[1]":"a[2]":"a[3]":"a[4]":"a[5])}' awk_test.vcf

此代码拆分并选择了前 5 个字段，但我想删除后 5 个字段。从第一个字段中选择将不起作用，因为某些字段（如 PGT 、 PID 被插入到某些行中。只是，从末尾移除。

预期输出：

GT:AD:DP:GQ:PL
GT:AD:DP:GQ:PL
GT:AD:DP:GQ:PGT:PID:PL
GT:AD:DP:GQ:PGT:PID:PL

感谢您帮助我编写问题第一部分的代码。

但是，该脚本不适用于我的另一个具有以下数据的文件。 这里我想更新第 9 列，目的相同。 列是 tab separated。但是，我想做的还是基本一样。

2   1463    .   T   TG  433.67  PASS    AC=0;AF=0.00;AN=0;BaseQRankSum=-4.310e-01;ClippingRankSum=0.00;DP=247;ExcessHet=2.9800;FS=0.000;MQ=21.25;MQRankSum=0.00;QD=33.36;ReadPosRankSum=-6.740e-01;SOR=0.784;set=InDels GT:AD:DP:PL:PG:PB:PI:PW:PC  ./.:76,0:76:0,0,0:./.:.:.:./.:. ./.:55,0:55:0,0,0:.:.:.:.:. ./.:68,0:68:0,0,0:.:.:.:.:. ./.:48,0:48:0,0,0:.:.:.:.:.
2   1466    .   TG  T   395.82  PASS    AC=0;AF=0.00;AN=0;BaseQRankSum=1.01;ClippingRankSum=0.00;DP=287;ExcessHet=5.1188;FS=7.707;MQ=18.00;MQRankSum=0.00;QD=17.21;ReadPosRankSum=1.28;SOR=0.074;set=InDels GT:AD:DP:PL:PG:PB:PI:PW:PC  ./.:95,0:95:0,0,0:./.:.:.:./.:. ./.:64,0:64:0,0,0:.:.:.:.:. ./.:75,0:75:0,0,0:.:.:.:.:. ./.:53,0:53:0,0,0:.:.:.:.:.
2   1467    .   G   T   1334.42 PASS    AC=0;AF=0.00;AN=0;BaseQRankSum=0.674;ClippingRankSum=0.00;DP=287;ExcessHet=4.8226;FS=1.328;MQ=23.36;MQRankSum=0.00;QD=28.65;ReadPosRankSum=-4.310e-01;SOR=0.566;set=SNPs    GT:AD:DP:PL:PG:PB:PI:PW:PC  ./.:95,0:95:0,0,0:./.:.:.:./.:. ./.:64,0:64:0,0,0:.:.:.:.:. ./.:75,0:75:0,0,0:.:.:.:.:. ./.:53,0:53:0,0,0:.:.:.:.:.
2   1516    .   C   T   5902.93 PASS    AC=2;AF=0.250;AN=8;BaseQRankSum=0.287;ClippingRankSum=0.00;DP=411;ExcessHet=0.5065;FS=1.489;InbreedingCoeff=0.3492;MQ=59.77;MQRankSum=0.00;QD=28.38;ReadPosRankSum=-7.100e-02;SOR=0.553;set=SNPs    GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC   0/0:122,0:122:99:0,120,1800:0/0:.:.:0/0:.   1/1:1,108:109:99:3935,286,0:.:.:.:.:.   0/0:102,0:102:99:0,120,1800:.:.:.:.:.   0/0:78,0:78:99:0,120,1800:.:.:.:.:.
2   1584    .   CT  C   164.08  PASS    AC=0;AF=0.00;AN=8;DP=717;ExcessHet=0.0812;FS=0.000;InbreedingCoeff=0.9386;MQ=60.00;QD=32.82;SOR=3.611;set=InDels    GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC   0/0:122,0:122:99:0,120,1800:0/0:.:.:0/0:.   0/0:172,0:172:99:0,120,1800:.:.:.:.:.   0/0:102,0:102:99:0,120,1800:.:.:.:.:.   0/0:321,0:321:99:0,120,1800:.:.:.:.:.
2   1609    .   C   A   604.68  PASS    AC=0;AF=0.00;AN=0;DP=386;ExcessHet=0.1158;FS=0.000;InbreedingCoeff=0.8938;MQ=12.32;QD=31.09;SOR=1.061;set=SNPs  GT:AD:DP:PL:PG:PB:PI:PW:PC  ./.:0,0:0:0,0,0:./.:.:.:./.:.   ./.:0,0:0:0,0,0:.:.:.:.:.   ./.:0,0:0:0,0,0:.:.:.:.:.   ./.:386,0:386:0,0,0:.:.:.:.:.
2   1612    .   TGTGAGCTATTTCTTTTACATTTTTCTTTAGATTCTAGGTTAAATTGTGAAGCTGATTATCTTTTTTGTTTACAG T   1298.76 PASS    AC=2;AF=1.00;AN=2;DP=3;ExcessHet=0.1047;FS=0.000;InbreedingCoeff=0.8896;MQ=60.02;QD=29.54;SOR=1.179;set=InDels  GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC   ./.:0,0:0:.:0,0,0:./.:.:.:./.:. ./.:0,0:0:.:0,0,0:.:.:.:.:. ./.:0,0:0:.:0,0,0:.:.:.:.:. 1/1:0,3:3:99:1355,582,0:.:.:.:.:.
2   1657    .   T   A,* 3118.91 PASS    AC=0,2;AF=0.00,1.00;AN=2;BaseQRankSum=0.578;ClippingRankSum=0.00;DP=4;ExcessHet=1.9114;FS=3.474;InbreedingCoeff=0.0821;MQ=26.68;MQRankSum=0.841;QD=28.10;ReadPosRankSum=-5.960e-01;SOR=0.821;set=SNPs   GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC   ./.:0,0,0:0:.:0,0,0,0,0,0:./.:.:.:./.:. ./.:1,0,0:1:.:0,0,0,0,0,0:.:.:.:.:. ./.:0,0,0:0:.:0,0,0,0,0,0:.:.:.:.:. 2/2:0,0,3:3:99:1355,1360,1393,582,615,0:.:.:.:.:.
2   1738    .   A   G   4693.24 PASS    AC=2;AF=0.250;AN=8;BaseQRankSum=0.00;ClippingRankSum=0.00;DP=1595;ExcessHet=0.0577;FS=0.621;InbreedingCoeff=0.6496;MQ=60.00;MQRankSum=0.00;QD=5.46;ReadPosRankSum=0.307;SOR=0.773;set=SNPs  GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC   0/1:389,92:481:99:1748,0,12243:0|1:.,.,.,.,.:935:|:0.5  0/0:318,0:318:99:0,120,1800:.:.:.:.:.   0/1:270,53:323:99:990,0,9096:.:.:.:.:.  0/0:473,0:473:99:0,120,1800:.:.:.:.:.
2   2781    .   T   G   435.07  PASS    AC=1;AF=0.125;AN=8;BaseQRankSum=0.624;ClippingRankSum=0.00;DP=2146;ExcessHet=3.4523;FS=8.450;InbreedingCoeff=-0.0856;MQ=60.06;MQRankSum=-4.630e-01;QD=1.27;ReadPosRankSum=-5.980e+00;SOR=1.436;set=SNPs GT:AD:DP:GQ:PGT:PID:PL:PG:PB:PI:PW:PC   0/0:620,0:620:99:.:.:0,120,1800:0/0:.:.:0/0:.   0/1:309,34:343:99:0|1:2781_T_G:469,0,12941:.:.:.:.:.    0/0:492,0:492:99:.:.:0,120,1800:.:.:.:.:.   0/0:691,0:691:99:.:.:0,120,1800:.:.:.:.:.
2   2786    .   C   G   39.69   PASS    AC=0;AF=0.00;AN=8;BaseQRankSum=0.881;ClippingRankSum=0.00;DP=2145;ExcessHet=4.3933;FS=0.000;InbreedingCoeff=-0.1367;MQ=52.41;MQRankSum=-1.356e+00;QD=1.13;ReadPosRankSum=0.577;SOR=0.527;set=SNPs   GT:AD:DP:GQ:PL:PG:PB:PI:PW:PC   0/0:620,0:620:99:0,120,1800:0/0:.:.:0/0:.   0/0:342,0:342:99:0,120,1800:.:.:.:.:.   0/0:492,0:492:99:0,120,1800:.:.:.:.:.   0/0:691,0:691:99:0,120,1800:.:.:.:.:.
2   2787    .   T   C   993.78  PASS    AC=1;AF=0.125;AN=8;BaseQRankSum=-2.967e+00;ClippingRankSum=0.00;DP=2153;ExcessHet=3.8663;FS=4.941;InbreedingCoeff=-0.1076;MQ=60.06;MQRankSum=-5.100e-01;QD=2.84;ReadPosRankSum=-3.689e+00;SOR=0.875;set=SNPs    GT:AD:DP:GQ:PGT:PID:PL:PG:PB:PI:PW:PC   0/0:620,0:620:99:.:.:0,120,1800:0/0:.:.:0/0:.   0/1:309,41:350:99:0|1:2781_T_G:1027,0,13619:.:.:.:.:.   0/0:492,0:492:99:.:.:0,120,1800:.:.:.:.:.   0/0:691,0:691:99:.:.:0,120,1800:.:.:.:.:.
2   2792    .   A   G   745.21  PASS    AC=1;AF=0.125;AN=8;BaseQRankSum=0.271;ClippingRankSum=0.00;DP=2176;ExcessHet=5.9256;FS=5.964;InbreedingCoeff=-0.2087;MQ=59.48;MQRankSum=-4.920e-01;QD=1.83;ReadPosRankSum=-3.100e-02;SOR=1.389;set=SNPs GT:AD:DP:GQ:PGT:PID:PL:PG:PB:PI:PW:PC   0/0:620,0:620:99:.:.:0,120,1800:0/0:.:.:0/0:.   0/1:332,41:373:99:0|1:2781_T_G:705,0,13295:.:.:.:.:.    0/0:492,0:492:99:.:.:0,120,1800:.:.:.:.:.   0/0:691,0:691:99:.:.:0,120,1800:.:.:.:.:.

我也尝试添加 FS/OFS 参数，但它不起作用。

Answer 1

也许不是最好的 awk 解决方案但有效：

awk -F: '{printf(); for (i=2;i<=NF-5;i++) printf(":%s",$i); printf("\n"); }' file.txt

根据冒号自然拆分字段
打印第一个字段，然后打印其他字段减去最后 5 个字段（使用 NF：字段数预设变量），带前导冒号。
打印一个换行符以结束该行。

编辑：我知道使用 awk 会更好。正如 Lars 评论的那样，这更简单、更清晰：

awk -F: '{s= ; for(i = 2; i<= NF-5;i++) s= s FS $i; print s}'

使用分隔符值而不是硬编码冒号
编写字符串而不是打印所有字段
最后打印字符串

如果你想在 python 脚本中使用它，我建议你将其写在 python 中，更简单更快：

import csv

with open("file.txt") as fr, open("out.txt","w",newline="") as fw:
    cr = csv.reader(fr,delimiter=":")
    cw = csv.writer(fw,delimiter=":")
    for row in cr:
        cw.writerow(row[:-5])  # write the row but the 5 last fields

如果您已经有打开的句柄，则可以省略 with 部分。

编辑：由于您在我回答后对问题进行了大量编辑，现在您想从一个特定字段中删除最后 5 个 "fields"（制表符分隔）。 Lars 已经 awk-wise 正确回答了，让我提出我的 python 解决方案：

import csv

with open("file.txt") as fr, open("out.txt","w",newline="") as fw:
    cr = csv.reader(fr,delimiter="\t")
    cw = csv.writer(fw,delimiter="\t")
    for row in cr:
        row[8]=":".join(row[8].split(":")[:-5])  # remove 5 last "fields" from 8th field
        cw.writerow(row)  # write the modified row

Answer 2

在澄清了文件的内容之后，这是我的更新的答案：

您可以简单地使用

awk 'BEGIN{FS=OFS="\t"} { = gensub(/(:[^:]+){5}$/,"","1",)} 1' yourfile

这里我们使用标准的 awk 字段拆分，因为您的文件是用制表符分隔的。
我们进一步做一个范围为 </code> 的正则表达式替换，这是您要更改的以冒号分隔的字符串。 </li> <li>正则表达式的工作原理与旧答案相同，我的印象是该行仅由冒号分隔的字符串组成。</li> </ul> <hr> <p><strong>旧答案</strong> 既然您在评论中写了 "pipe to python"，也许您对 sed 解决方案持开放态度？ </p> <pre><code>sed -r "s/(:[^:]+){5}$//" yourfile
这里我们替换（s/...//将...替换为空），...表示：
- 从行尾 ($)
- 五个 ({5})
- 出现冒号 (:)
- 后跟一些东西 (+)
- 不是冒号 ([^:])
这又可以是 "translated" 到 awk:
```
awk -F: 'BEGIN{FS=OFS="\t"} {[=12=] = gensub(/(:[^:]+){5}$/,"","1")} 1' yourfile
```

拆分后如何使用 awk 到列末尾的 select/remove 字段？

How to use awk to select/remove fields from the end of a column after splitting?

python

awk

gawk