如何从文件 linux 中查找独特的单词

Question

我有一个大文件，每一行看起来像这样文本数字等 [Man-(some numers)] 是很多这个 Man-somenumbers 在几行中重复，我只想计算独特的 Mans -words。我不能使用 unique file ，因为 Man 单词之前的文本在每一行中总是不同的。我怎样才能只计算文件中唯一的 Man-somenumbers 单词？

Answer 1

如果我正确理解你想做什么，那么

grep -oE 'Man-[0-9]+' filename | sort | uniq -c

应该可以解决问题。它的工作原理如下：First

grep -oE 'Man-[0-9]+' filename

从文件中分离出与 Man-[0-9]+ 正则表达式匹配的所有单词。然后该列表通过 sort 进行管道传输以获得 uniq 所需的排序列表，然后该排序列表通过 uniq -c 进行管道传输以计算每个唯一 Man- 单词出现的频率.

如何从文件 linux 中查找独特的单词

How to find unique words from file linux

linux

bash

terminal

ubuntu