使用 TinyMCE 4 或 HTMLPurifier 清理 HTML

Cleaning up HTML using TinyMCE 4 or HTMLPurifier

我有一个带有描述字段的表单,它使用 TinyMCE 4 来编辑文本和图像。

以下是我对 TinyMCE 的配置:

tinymce.init({
    selector: '.tinymce',
    formats: {
        bold: [
            {inline: 'span', styles: {fontWeight: 'bold'}}
        ],
        italic: [
            {inline: 'span', styles: {fontStyle: 'italic'}}
        ],
        underline: [
            {inline: 'span', styles: {textDecoration: 'underline'}, exact: true}
        ],
        strikethrough: [
            {inline: 'span', styles: {textDecoration: 'line-through'}, exact: true}
        ]
    },
    width: '80%',
    height: 200,
    menubar: false,
    statusbar: false,
    plugins: [
        'advlist autolink save link image lists hr',
        'wordcount visualblocks visualchars code media',
        'table contextmenu directionality textcolor colorpicker'
    ],
    toolbar1: 
        'styleselect | bold italic underline subscript superscript strikethrough removeformat | forecolor backcolor | ' + 
        'fontselect | bullist numlist | alignleft aligncenter alignright alignjustify | table | ' + 
        'link unlink image hr | code',
    toolbar_items_size: 'small',
    style_formats: [
        { title: 'Header 1', block: 'h1' }, { title: 'Header 2', block: 'h2' }, { title: 'Header 3', block: 'h3' },
        { title: 'Header 4', block: 'h4' }, { title: 'Header 5', block: 'h5' }, { title: 'Header 6', block: 'h6' }
    ],
    allow_conditional_comments: false,
    valid_elements: 'a,div,h1,h2,h3,h4,h5,h6,hr,li,ol,p,span[style],sub,sup,table[*],tr[*],td[*],ul,-p',
    extended_valid_elements : 'a[href|target=_blank],img[src|alt|width|height]',
    content_css: [],
    setup: function (editor) {
        // update selector's value when changes are made
        editor.on('change', editor.save);
    }
});

提交表单后,描述字段会使用 HTMLPurifier 进行清理。

以下是我对 HTMLPurifier 的配置:

$config = HTMLPurifier_Config::createDefault();
$config->set('Core.Encoding', 'UTF-8');
$config->set('HTML.ForbiddenElements', array('applet','embed','iframe','link','script','style','object'));
$config->set('AutoFormat.RemoveEmpty', true);
$config->set('Core.RemoveInvalidImg', true);
$config->set('URI.AllowedSchemes', array('data' => true)); // allow data URIs
$purifier = new HTMLPurifier($config);

在描述中输入数据时,可以嵌套span 标签。例如:

<h1><span style="text-decoration: underline; color: #ff6600;"><span style="font-weight: bold; font-style: italic;">sddfdsdfdhjhjkhjkh</span></span></h1>

问题: 有没有办法清理 HTML(使用 TinyMCE 或 HTMLPurifier),例如尽可能折叠样式?

<h1><span style="text-decoration: underline; color: #ff6600; font-weight: bold; font-style: italic;">sddfdsdfdhjhjkhjkh</span></h1>

或更好:

<h1 style="text-decoration: underline; color: #ff6600; font-weight: bold; font-style: italic;">sddfdsdfdhjhjkhjkh</h1>

HTML净化器没有这个功能,抱歉!我什至不确定如何实施;有很多嵌套 span 与单独样式的组合,无法以这种方式折叠。

正如您得到的另一个答案,无法为此使用 HTML 净化器。

但是仍然可以制作一个辅助函数来做你想做的事。

通过使用 preg_replaceregex 我们可以创建以下函数来删除跨度并获得您要求的输出:

function filterSpan($content)
{
    return preg_replace('/(><span)|(<\/span>)/', '', $content);
}

这是您未经过滤的输入示例:

$content = '
<h1><span style="text-decoration: underline; color: #ff6600; 
font-weight: bold; font-style: italic;">sddfdsdfdhjhjkhjkh</span></h1>
';

这是调用 filterSpan($content) 后的输出:

<h1 style="text-decoration: underline; color: #ff6600; 
font-weight: bold; font-style: italic;">sddfdsdfdhjhjkhjkh</h1>