根据 shell 中的特定字段查找 csv 中的唯一事件

Question

我有一个文件emails.csv:

>cat emails.csv
1,joe,joe@gmail.com,32
2,jim,jim@hotmail.fr,23
3,steve,steve_smith@temporary.com.br,45
4,joseph,joseph@protonmail.com,23
5,jim,jim29@bluewin.ch,29
6,hilary,hilary@bluewin.ch,32

当我发现另一个条目具有相同的最后一个字段（年龄）时，我只想保留第一个条目 - 基于最后一个字段的唯一条目。我想要的输出是：

1,joe,joe@gmail.com,32
2,jim,jim@hotmail.fr,23
3,steve,steve_smith@temporary.com.br,45
5,jim,jim29@bluewin.ch,29

以下脚本可以进行过滤：

> cut -d, -f4 emails.csv |
> while read age1;
> do line=1;continue_loop=1 cut -d, -f4 emails.csv | while read age;
> do if [[ $age1 == $((age)) ]] && [[ $continue_loop ==  ]];
> then cat emails.csv | head -n $line | tail -n 1;
> continue_loop=0; fi;
> let line++;
> done;
> done | sort

但是，我正在寻找不需要两个循环的解决方案，因为这似乎有点过于复杂。

Answer 1

sort -t, -k4 emails.csv | sed -e 's/,/ /g' | uniq -f3 | sed -e 's/ /,/g'

但似乎其他一些语言，如 Perl 或 Python 将帮助您编写更稳定且不那么丑陋的解决方案

根据 shell 中的特定字段查找 csv 中的唯一事件

Finding unique ocurrences in a csv based on a certain field in shell

bash

shell

cut

uniq