如何使用 Unix 从文件中删除未使用的 html 代码

Question

我们有一个 HTML 源，将使用 informatica 工作流进行处理。在这两者之间，我们有一个转换文件的 Unix 脚本。

我们在过去一周的 informatica 中收到一条错误消息，指出格式无效，因为该文件有未使用的 html 引用（0-8,14-31 等）

示例：

&#00; - &#08;   Unused
&#11; - &#12;   Unused
&#14; - &#31;   Unused
&#127; - &#159; Unused

我们需要在 Unix 中处理它，并在处理它之前从 HTML 文件中删除上述字符。

我试过使用像

这样的 sed 命令

sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&/g'

但它没有达到目的。此外，由于我们有太多未使用的引用，因此也不能对其进行硬编码。

你能告诉我如何进行吗？

Answer 1

这是一个有效的 (bash) 解决方案，将编码的字符视为字符串。不清楚您的源代码是否经过编码，但如果是这样就可以工作：

sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'

how to remove unused html codes from the file using Unix