如何在不计算 bash 中的复合词的情况下计算单词的频率？

Question

我正在使用它来计算使用 bash 的文本文件中的频率。

grep -ow -i "and" | wc -l

它计算文件中的所有和，包括那些属于复合词的部分，例如 jerry-and-jeorge。这些我希望忽略并计算所有其他独立 and.

Answer 1

使用 GNU grep，您可以使用以下命令来计算 and 个没有用连字符括起来的单词：

grep -ioP '\b(?<!-)and\b(?!-)' "" | wc -l

详情:

#!/bin/bash
s='jerry-and-jeorge, and, aNd, And.'
grep -ioP '\b(?<!-)and\b(?!-)' <<< "$s" | wc -l
# => 3 (not 4)

How to count frequency of a word without counting compound words in bash?