找到出现的次数并将其添加到模式旁边
find the number of occurences and add it next to the pattern
我在一个目录中有几个文件,在其中一些文件中,某些模式出现了多次。例如
文件“8_list
”的内容:
Spiroplasma_taiwanense
Spiroplasma_diminutum
Spiroplasma_apis
Spiroplasma_sabaudiense
Spiroplasma_taiwanense
Spiroplasma_diminutum
Spiroplasma_taiwanense
EntAcro10
EntAcro10
Spiroplasma_apis
Spiroplasma_culicicola
Spiroplasma_sabaudiense
Spiroplasma_diminutum
Spiroplasma_sabaudiense
Spiroplasma_sabaudiense
Spiroplasma_sabaudiense
Spiroplasma_apis
Spiroplasma_culicicola
Spiroplasma_culicicola
Spiroplasma_culicicola
Spiroplasma_culicicola
Spiroplasma_diminutum
Spiroplasma_culicicola
Spiroplasma_culicicola
EntAcro1
和文件“574_list
”的内容
Mesoplasma_florum_l1
Spiroplasma_sabaudiense
Mesoplasma_florum_w37
EntAcro1
所有文件都只有一列。
我想要做的是在每个文件中找到相同的模式,然后在它旁边添加一个数字来描述发生的情况。例如,在文件“8_list
”中,如果 Spiroplasma_culicicola
出现了 7 次,那么在第一次出现的旁边应该写 Spiroplasma_culicicola_1
,
在第二次出现的旁边 Spiroplasma_culicicola_2
在第三次出现的旁边 Spiroplasma_culicicola_3
等等等等
我尝试通过 sed
单独查找每个模式来做到这一点
sed -z 's/Spiroplasma_culicicola/Spiroplasma_culicicola_2/2'
但我想知道是否有更简单的方法来为给定目录中的所有文件和所有模式执行此操作
提前致谢
对于 awk
:
这样好的工具来说,这是一个很好的任务
awk '{gsub(" ", "", [=10=]); a[[=10=]]++; print [=10=]"_"a[[=10=]]}' 8_list
gsub(" ", "", [=13=]);
- 替换行尾的尾随 space
a[[=14=]]++;
- 递增每个模式(列值)的出现次数,将列值视为数组键
输出:
Spiroplasma_taiwanense_1
Spiroplasma_diminutum_1
Spiroplasma_apis_1
Spiroplasma_sabaudiense_1
Spiroplasma_taiwanense_2
Spiroplasma_diminutum_2
Spiroplasma_taiwanense_3
EntAcro10_1
EntAcro10_2
Spiroplasma_apis_2
Spiroplasma_culicicola_1
Spiroplasma_sabaudiense_2
Spiroplasma_diminutum_3
Spiroplasma_sabaudiense_3
Spiroplasma_sabaudiense_4
Spiroplasma_sabaudiense_5
Spiroplasma_apis_3
Spiroplasma_culicicola_2
Spiroplasma_culicicola_3
Spiroplasma_culicicola_4
Spiroplasma_culicicola_5
Spiroplasma_diminutum_4
Spiroplasma_culicicola_6
Spiroplasma_culicicola_7
EntAcro1_1
我在一个目录中有几个文件,在其中一些文件中,某些模式出现了多次。例如
文件“8_list
”的内容:
Spiroplasma_taiwanense
Spiroplasma_diminutum
Spiroplasma_apis
Spiroplasma_sabaudiense
Spiroplasma_taiwanense
Spiroplasma_diminutum
Spiroplasma_taiwanense
EntAcro10
EntAcro10
Spiroplasma_apis
Spiroplasma_culicicola
Spiroplasma_sabaudiense
Spiroplasma_diminutum
Spiroplasma_sabaudiense
Spiroplasma_sabaudiense
Spiroplasma_sabaudiense
Spiroplasma_apis
Spiroplasma_culicicola
Spiroplasma_culicicola
Spiroplasma_culicicola
Spiroplasma_culicicola
Spiroplasma_diminutum
Spiroplasma_culicicola
Spiroplasma_culicicola
EntAcro1
和文件“574_list
”的内容
Mesoplasma_florum_l1
Spiroplasma_sabaudiense
Mesoplasma_florum_w37
EntAcro1
所有文件都只有一列。
我想要做的是在每个文件中找到相同的模式,然后在它旁边添加一个数字来描述发生的情况。例如,在文件“8_list
”中,如果 Spiroplasma_culicicola
出现了 7 次,那么在第一次出现的旁边应该写 Spiroplasma_culicicola_1
,
在第二次出现的旁边 Spiroplasma_culicicola_2
在第三次出现的旁边 Spiroplasma_culicicola_3
等等等等
我尝试通过 sed
单独查找每个模式来做到这一点
sed -z 's/Spiroplasma_culicicola/Spiroplasma_culicicola_2/2'
但我想知道是否有更简单的方法来为给定目录中的所有文件和所有模式执行此操作
提前致谢
对于 awk
:
awk '{gsub(" ", "", [=10=]); a[[=10=]]++; print [=10=]"_"a[[=10=]]}' 8_list
gsub(" ", "", [=13=]);
- 替换行尾的尾随 space
a[[=14=]]++;
- 递增每个模式(列值)的出现次数,将列值视为数组键
输出:
Spiroplasma_taiwanense_1
Spiroplasma_diminutum_1
Spiroplasma_apis_1
Spiroplasma_sabaudiense_1
Spiroplasma_taiwanense_2
Spiroplasma_diminutum_2
Spiroplasma_taiwanense_3
EntAcro10_1
EntAcro10_2
Spiroplasma_apis_2
Spiroplasma_culicicola_1
Spiroplasma_sabaudiense_2
Spiroplasma_diminutum_3
Spiroplasma_sabaudiense_3
Spiroplasma_sabaudiense_4
Spiroplasma_sabaudiense_5
Spiroplasma_apis_3
Spiroplasma_culicicola_2
Spiroplasma_culicicola_3
Spiroplasma_culicicola_4
Spiroplasma_culicicola_5
Spiroplasma_diminutum_4
Spiroplasma_culicicola_6
Spiroplasma_culicicola_7
EntAcro1_1