如何从文件 linux 中查找独特的单词

How to find unique words from file linux

我有一个大文件,每一行看起来像这样 文本数字等 [Man-(some numers)] 是很多这个 Man-somenumbers 在几行中重复,我只想计算独特的 Mans -words。我不能使用 unique file ,因为 Man 单词之前的文本在每一行中总是不同的。 我怎样才能只计算文件中唯一的 Man-somenumbers 单词?

如果我正确理解你想做什么,那么

grep -oE 'Man-[0-9]+' filename | sort | uniq -c

应该可以解决问题。它的工作原理如下:First

grep -oE 'Man-[0-9]+' filename

从文件中分离出与 Man-[0-9]+ 正则表达式匹配的所有单词。然后该列表通过 sort 进行管道传输以获得 uniq 所需的排序列表,然后该排序列表通过 uniq -c 进行管道传输以计算每个唯一 Man- 单词出现的频率.