找到出现的次数并将其添加到模式旁边

find the number of occurences and add it next to the pattern

我在一个目录中有几个文件,在其中一些文件中,某些模式出现了多次。例如

文件“8_list”的内容:

Spiroplasma_taiwanense 
Spiroplasma_diminutum 
Spiroplasma_apis 
Spiroplasma_sabaudiense 
Spiroplasma_taiwanense 
Spiroplasma_diminutum 
Spiroplasma_taiwanense 
EntAcro10
EntAcro10
Spiroplasma_apis 
Spiroplasma_culicicola 
Spiroplasma_sabaudiense 
Spiroplasma_diminutum 
Spiroplasma_sabaudiense 
Spiroplasma_sabaudiense 
Spiroplasma_sabaudiense 
Spiroplasma_apis 
Spiroplasma_culicicola 
Spiroplasma_culicicola 
Spiroplasma_culicicola 
Spiroplasma_culicicola 
Spiroplasma_diminutum 
Spiroplasma_culicicola 
Spiroplasma_culicicola 
EntAcro1

和文件“574_list”的内容

Mesoplasma_florum_l1
Spiroplasma_sabaudiense 
Mesoplasma_florum_w37
EntAcro1

所有文件都只有一列。 我想要做的是在每个文件中找到相同的模式,然后在它旁边添加一个数字来描述发生的情况。例如,在文件“8_list”中,如果 Spiroplasma_culicicola 出现了 7 次,那么在第一次出现的旁边应该写 Spiroplasma_culicicola_1, 在第二次出现的旁边 Spiroplasma_culicicola_2 在第三次出现的旁边 Spiroplasma_culicicola_3 等等等等

我尝试通过 sed 单独查找每个模式来做到这一点

sed -z 's/Spiroplasma_culicicola/Spiroplasma_culicicola_2/2'

但我想知道是否有更简单的方法来为给定目录中的所有文件和所有模式执行此操作

提前致谢

对于 awk:

这样好的工具来说,这是一个很好的任务
awk '{gsub(" ", "", [=10=]); a[[=10=]]++; print [=10=]"_"a[[=10=]]}' 8_list

gsub(" ", "", [=13=]); - 替换行尾的尾随 space

a[[=14=]]++; - 递增每个模式(列值)的出现次数,将列值视为数组键


输出:

Spiroplasma_taiwanense_1
Spiroplasma_diminutum_1
Spiroplasma_apis_1
Spiroplasma_sabaudiense_1
Spiroplasma_taiwanense_2
Spiroplasma_diminutum_2
Spiroplasma_taiwanense_3
EntAcro10_1
EntAcro10_2
Spiroplasma_apis_2
Spiroplasma_culicicola_1
Spiroplasma_sabaudiense_2
Spiroplasma_diminutum_3
Spiroplasma_sabaudiense_3
Spiroplasma_sabaudiense_4
Spiroplasma_sabaudiense_5
Spiroplasma_apis_3
Spiroplasma_culicicola_2
Spiroplasma_culicicola_3
Spiroplasma_culicicola_4
Spiroplasma_culicicola_5
Spiroplasma_diminutum_4
Spiroplasma_culicicola_6
Spiroplasma_culicicola_7
EntAcro1_1