如何使用 grep 命令提取 html 中标签之间的内容

Question

我想写一个 grep 命令来提取 h1 标签之间的内容，而不考虑 class 和其他属性

我试过了

 grep -o '>.*</h1>' Email.txt

但是只给了三个元素

Answer 1

使用 GNU grep，您可以使用

grep -oP '<h1(?:\s[^>]*)?>\K.*?(?=</h1>)' Email.txt

-P 选项将启用 PCRE 正则表达式引擎并且模式将匹配

How to extract content between tags in html using grep command