awk 删除与 html 标签匹配的字符

awk remove characters match with html tag

我想从此正则表达式中删除每个带有 awk 的 html 标记:/[<.*.>]/ 如果在任何字段中找到所述正则表达式。我一直试图让它与 sub 或 substr 一起工作,我找不到正确的逻辑。

输入文字:

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation<br/><div style="margin-top:6px">< b>veniam:< /b>< /div> <br/><div style="margin-top:6px">< b>Confort:< /b></div>Comenzi volan; Cruise-control; Servodirectie; <br/>

输出:

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitationveniam: Confort:Comenzi volan; Cruise-control; Servodirectie;

如果您不是真正地解析 HTML 而是只想删除文本文件中每个 <...> 对之间的所有内容,那么对于多字符的 GNU awk 就是这样回复:

$ awk -v RS='<[^>]+>' -v ORS= '1' file
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitationveniam: Confort:Comenzi volan; Cruise-control; Servodirectie;