如何防止 OWASP HTML sanitizer 限制行长度?

How to keep OWASP HTML sanitizer from limiting line length?

我必须将几个 100000 个非常旧的 html 文档放入 Web 应用程序中。我在使用 OWASP HTML Sanitizer 时看到了很好的效果,并且能够确保创建正确消毒的 HTML。 我唯一的问题是 HTML Sanitizer 对最大行长度设置了硬性限制。确切地说,每行最多 250 个字节。 不幸的是,这会导致某些单词在中间分开,这与显示的 html(用插入符号标记)相同:

This sentence here is perfectly ok. But in the next s entence there is an additional space in the word "sentence".

                                                     ^

我怎样才能告诉消毒剂不要过早结束生产线?

由于原始 html 中的一些行是 800 字节或更多,如果我能够告诉消毒剂只在空格中插入中断也会有所帮助。

这与其说是一个答案,不如说是一个忏悔:截断行的效果是由我的代码的其他部分造成的,它对输出设置了行长度限制。