如何使用 Unix 从文件中删除未使用的 html 代码
how to remove unused html codes from the file using Unix
我们有一个 HTML 源,将使用 informatica 工作流进行处理。在这两者之间,我们有一个转换文件的 Unix 脚本。
我们在过去一周的 informatica 中收到一条错误消息,指出格式无效,因为该文件有未使用的 html 引用(0-8,14-31 等)
示例:
� -  Unused
 -  Unused
 -  Unused
 - Ÿ Unused
我们需要在 Unix 中处理它,并在处理它之前从 HTML 文件中删除上述字符。
我试过使用像
这样的 sed 命令
sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&/g'
但它没有达到目的。此外,由于我们有太多未使用的引用,因此也不能对其进行硬编码。
你能告诉我如何进行吗?
这是一个有效的 (bash) 解决方案,将编码的字符视为字符串。不清楚您的源代码是否经过编码,但如果是这样就可以工作:
sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'
我们有一个 HTML 源,将使用 informatica 工作流进行处理。在这两者之间,我们有一个转换文件的 Unix 脚本。
我们在过去一周的 informatica 中收到一条错误消息,指出格式无效,因为该文件有未使用的 html 引用(0-8,14-31 等)
示例:
� -  Unused
 -  Unused
 -  Unused
 - Ÿ Unused
我们需要在 Unix 中处理它,并在处理它之前从 HTML 文件中删除上述字符。
我试过使用像
这样的 sed 命令sed -e 's/\&\([^\amp;|^\apos;|^\quot;|^\lt;|^\gt;]\)/\&/g'
但它没有达到目的。此外,由于我们有太多未使用的引用,因此也不能对其进行硬编码。
你能告诉我如何进行吗?
这是一个有效的 (bash) 解决方案,将编码的字符视为字符串。不清楚您的源代码是否经过编码,但如果是这样就可以工作:
sed 's/'`for n in {00..08} {11..12} {14..31} {127..159}; do echo -n "&#"$n";\|"; done`'//g'