删除 bash 或 Python 中出现的所有重复行，只获取唯一行

Question

我已经尝试过 solution here 但它给了我一个空文件，即使我有非重复的唯一行。

我有一个很大的文本文件 (2GB)，每行包含很长的字符串。

AB02819380213.   : (( 00 99   -   MO:ASKDJIO*U* HIUGHUHAHUHHA AUCCGTCTTCTTTTTTA FFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFF
a01219f8b
NJSAJDH*)8888-   + 99 100.    -   NKJJABHASDGASGYUOISADIJIJA  TCTCTCTTTCTACACTAATCACAATACTACA FFFFFFFFFFF
a023129ab
NJSAJDH*)8888-   + 99 100.    -   NKJJABHASDGASGYUOISADIJIJA  TCTCTCTTTCTACACTAATCACAATACTACA FFFFFFFFFFF
000axa2381a
AB02819380213.   : (( 00 99   -   MO:ASKDJIO*U* HIUGHUHAHUHHA AUCCGTCTTCTTTTTTA FFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFF

这里的预期输出是

a01219f8b
a023129ab
000axa2381a

如何在 bash 或 Python 中执行此操作？

Answer 1

如果您不担心输出的顺序：

$ awk '{a[[=10=]]++}END{for (i in a) if (a[i] == 1) print i}' file
000axa2381a
a01219f8b
a023129ab

数组a 将保存每一行出现的次数。最后，当计数为 1 时打印。

删除 bash 或 Python 中出现的所有重复行，只获取唯一行

Remove all occurrences of duplicate lines in bash or Python and getting only and only the unique lines

python

bash

duplicates