如何在终端中解析 html 文本文件?
how to parse html text file in terminal?
我有一个文本文件,即使在删除所有 html 标签后仍然包含一些 html 撇号代码和其他标点符号示例:
It's // It's
我的问题是如何更改所有这些?
并且我在 linux 下使用 bash 脚本来获取 html 文件
使用Python:
$ echo 'It's' | python -c 'import xmllib,sys; print(xmllib.XMLParser().translate_references(sys.stdin.read()))'
It's
使用 Perl:
$ echo 'It's' | perl -MHTML::Entities -pe 'decode_entities($_);'
It's
或者,如果您得到 lynx
,则将其用作:
lynx -stdin -dump < file.html
以上也会删除 HTML 标签,例如 file.html
<i>It's</i>
<<b>&</b>>
打印
It's <&>
我有一个文本文件,即使在删除所有 html 标签后仍然包含一些 html 撇号代码和其他标点符号示例:
It's // It's
我的问题是如何更改所有这些?
并且我在 linux 下使用 bash 脚本来获取 html 文件
使用Python:
$ echo 'It's' | python -c 'import xmllib,sys; print(xmllib.XMLParser().translate_references(sys.stdin.read()))'
It's
使用 Perl:
$ echo 'It's' | perl -MHTML::Entities -pe 'decode_entities($_);'
It's
或者,如果您得到 lynx
,则将其用作:
lynx -stdin -dump < file.html
以上也会删除 HTML 标签,例如 file.html
<i>It's</i>
<<b>&</b>>
打印
It's <&>