如何使用 Unix 从文件中删除未使用的 html 代码

how to remove unused html codes from the file using Unix

我们有一个 HTML 源,将使用 informatica 工作流进行处理。在这两者之间,我们有一个转换文件的 Unix 脚本。

我们在过去一周的 informatica 中收到一条错误消息,指出格式无效,因为该文件有未使用的 html 引用(0-8,14-31 等)

示例:

� -    Unused
 -    Unused
 -    Unused
 - Ÿ Unused

Source.

我们需要在 Unix 中处理它,并在处理它之前从 HTML 文件中删除上述字符。

我试过使用像

这样的 sed 命令
sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&/g'

但它没有达到目的。此外,由于我们有太多未使用的引用,因此也不能对其进行硬编码。

你能告诉我如何进行吗?

这是一个有效的 (bash) 解决方案,将编码的字符视为字符串。不清楚您的源代码是否经过编码,但如果是这样就可以工作:

sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'