删除 bash 或 Python 中出现的所有重复行,只获取唯一行
Remove all occurrences of duplicate lines in bash or Python and getting only and only the unique lines
我已经尝试过 solution here 但它给了我一个空文件,即使我有非重复的唯一行。
我有一个很大的文本文件 (2GB),每行包含很长的字符串。
AB02819380213. : (( 00 99 - MO:ASKDJIO*U* HIUGHUHAHUHHA AUCCGTCTTCTTTTTTA FFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFF
a01219f8b
NJSAJDH*)8888- + 99 100. - NKJJABHASDGASGYUOISADIJIJA TCTCTCTTTCTACACTAATCACAATACTACA FFFFFFFFFFF
a023129ab
NJSAJDH*)8888- + 99 100. - NKJJABHASDGASGYUOISADIJIJA TCTCTCTTTCTACACTAATCACAATACTACA FFFFFFFFFFF
000axa2381a
AB02819380213. : (( 00 99 - MO:ASKDJIO*U* HIUGHUHAHUHHA AUCCGTCTTCTTTTTTA FFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFF
这里的预期输出是
a01219f8b
a023129ab
000axa2381a
如何在 bash 或 Python 中执行此操作?
如果您不担心输出的顺序:
$ awk '{a[[=10=]]++}END{for (i in a) if (a[i] == 1) print i}' file
000axa2381a
a01219f8b
a023129ab
数组a
将保存每一行出现的次数。最后,当计数为 1 时打印。
我已经尝试过 solution here 但它给了我一个空文件,即使我有非重复的唯一行。
我有一个很大的文本文件 (2GB),每行包含很长的字符串。
AB02819380213. : (( 00 99 - MO:ASKDJIO*U* HIUGHUHAHUHHA AUCCGTCTTCTTTTTTA FFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFF
a01219f8b
NJSAJDH*)8888- + 99 100. - NKJJABHASDGASGYUOISADIJIJA TCTCTCTTTCTACACTAATCACAATACTACA FFFFFFFFFFF
a023129ab
NJSAJDH*)8888- + 99 100. - NKJJABHASDGASGYUOISADIJIJA TCTCTCTTTCTACACTAATCACAATACTACA FFFFFFFFFFF
000axa2381a
AB02819380213. : (( 00 99 - MO:ASKDJIO*U* HIUGHUHAHUHHA AUCCGTCTTCTTTTTTA FFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFF
这里的预期输出是
a01219f8b
a023129ab
000axa2381a
如何在 bash 或 Python 中执行此操作?
如果您不担心输出的顺序:
$ awk '{a[[=10=]]++}END{for (i in a) if (a[i] == 1) print i}' file
000axa2381a
a01219f8b
a023129ab
数组a
将保存每一行出现的次数。最后,当计数为 1 时打印。