如何根据列字符串的出现仅输出前 n 行

Question

我有一个大文件，其中第一列包含 ID 号，随后的列包含其他唯一信息。每个ID号在文件中出现多次：

000112 3489 A-8 40984
000112 4743 A-7 94587
000112 5894 A-1 45795
000177 8347 A-2 54575
000177 5843 B-5 94342
000177 5684 A-4 76544
000177 6586 C-2 65834
000226 5679 C-2 85795
000226 5456 C-1 45876
000226 9899 A-2 56834

我想输出一个文件，其中仅包含每个 ID 号的前两次出现的行：

000112 3489 A-8 40984
000112 4743 A-7 94587
000177 8347 A-2 54575
000177 5843 B-5 94342
000226 5679 C-2 85795
000226 5456 C-1 45876

请注意，此数据仅代表输入文件的一小部分，因此需要输入特定字符串（ID 号）的命令不是我要找的。谢谢！

Answer 1

这不是很漂亮，但它产生了所需的输出：

第 1 步：

awk '!seen[]++' input.file > output1

第 2 步：

grep -v -F -f output1 input.file | awk '!seen[]++' > output2

第 3 步：

cat output1 output2 | sort -k 1 > desired.output

Answer 2

awk 'a[]++ < 2' input-file

应该可以解决问题。只需读取文件并递增一个由第一列中的值索引的数组。如果该值小于 2，则打印该行。当您第 3 次看到相同的 id 时，数组中的索引将为 2，并且该行的输出将被抑制。

如何根据列字符串的出现仅输出前 n 行

How to output only the first n lines based on occurrences of a column string

linux

awk

grep

text-parsing