如何从文件 linux 中查找独特的单词
How to find unique words from file linux
我有一个大文件,每一行看起来像这样
文本数字等 [Man-(some numers)] 是很多这个 Man-somenumbers 在几行中重复,我只想计算独特的 Mans -words。我不能使用 unique file ,因为 Man 单词之前的文本在每一行中总是不同的。
我怎样才能只计算文件中唯一的 Man-somenumbers 单词?
如果我正确理解你想做什么,那么
grep -oE 'Man-[0-9]+' filename | sort | uniq -c
应该可以解决问题。它的工作原理如下:First
grep -oE 'Man-[0-9]+' filename
从文件中分离出与 Man-[0-9]+
正则表达式匹配的所有单词。然后该列表通过 sort
进行管道传输以获得 uniq
所需的排序列表,然后该排序列表通过 uniq -c
进行管道传输以计算每个唯一 Man-
单词出现的频率.
我有一个大文件,每一行看起来像这样 文本数字等 [Man-(some numers)] 是很多这个 Man-somenumbers 在几行中重复,我只想计算独特的 Mans -words。我不能使用 unique file ,因为 Man 单词之前的文本在每一行中总是不同的。 我怎样才能只计算文件中唯一的 Man-somenumbers 单词?
如果我正确理解你想做什么,那么
grep -oE 'Man-[0-9]+' filename | sort | uniq -c
应该可以解决问题。它的工作原理如下:First
grep -oE 'Man-[0-9]+' filename
从文件中分离出与 Man-[0-9]+
正则表达式匹配的所有单词。然后该列表通过 sort
进行管道传输以获得 uniq
所需的排序列表,然后该排序列表通过 uniq -c
进行管道传输以计算每个唯一 Man-
单词出现的频率.