如何通过URL防止XSS?

How to prevent XSS via URL?

我熟悉通常的持久性 XSS,其中来自用户输入的内容应该在输出到模板(html 实体)的途中进行转义。

最近,我遇到了一个非持久性问题,用户可以在 URL 上发送脚本,其中 URL 显示在页面的某处。在我的例子中,它是一个 link 标签。

所以我有以下 link 标签,它使用当前的 URL。

<link rel="next" href="{current_url}" />

问题是当有人发送 link 例如:

www.example.com/?%27;alert...

可以是 %27(单引号)和 %22(双引号)来关闭标签,因此允许用户输入脚本等。

我知道防止 XSS 的常用方法是使用 html 实体。在这种情况下,这不会破坏 URL 吗?是否可以使用 url 编码来代替?

顺便说一句,我正在使用 PHP 并且更愿意使用本机函数。

像这样: 检查这个答案,它是具有以下功能的那个: XSS filtering function in PHP

 function xss_clean($data)
    {
        /*
         * Function to clean a string to prevent XSS attack.
         */

        // Fix &entity\n;
        $data = str_replace(array('&amp;','&lt;','&gt;'), array('&amp;amp;','&amp;lt;','&amp;gt;'), $data);
        $data = preg_replace('/(&#*\w+)[\x00-\x20]+;/u', ';', $data);
        $data = preg_replace('/(&#x*[0-9A-F]+);*/iu', ';', $data);

        // decode
        $data = html_entity_decode($data, ENT_COMPAT, 'UTF-8');

        // Remove any attribute starting with "on" or xmlns
        $data = preg_replace('#(<[^>]+?[\x00-\x20"\'])(?:on|xmlns)[^>]*+>#iu', '>', $data);

        // Remove javascript: and vbscript: protocols
        $data = preg_replace('#([a-z]*)[\x00-\x20]*=[\x00-\x20]*([`\'"]*)[\x00-\x20]*j[\x00-\x20]*a[\x00-\x20]*v[\x00-\x20]*a[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iu', '=nojavascript...', $data);
        $data = preg_replace('#([a-z]*)[\x00-\x20]*=([\'"]*)[\x00-\x20]*v[\x00-\x20]*b[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iu', '=novbscript...', $data);
        $data = preg_replace('#([a-z]*)[\x00-\x20]*=([\'"]*)[\x00-\x20]*-moz-binding[\x00-\x20]*:#u', '=nomozbinding...', $data);

        // Only works in IE: <span style="width: expression(alert('Ping!'));"></span>
        $data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?expression[\x00-\x20]*\([^>]*+>#i', '>', $data);
        $data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?behaviour[\x00-\x20]*\([^>]*+>#i', '>', $data);
        $data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:*[^>]*+>#iu', '>', $data);

        // Remove namespaced elements (we do not need them)
        $data = preg_replace('#</*\w+:\w[^>]*+>#i', '', $data);

        do
        {
            // Remove really unwanted tags
            $old_data = $data;
            $data = preg_replace('#</*(?:applet|b(?:ase|gsound|link)|embed|frame(?:set)?|i(?:frame|layer)|l(?:ayer|ink)|meta|object|s(?:cript|tyle)|title|xml)[^>]*+>#i', '', $data);
        }
        while ($old_data !== $data);

        // we are done...
        return $data;
    }

我知道您说过您更喜欢原生函数,但我通常能够找到击败大多数解决方案的方法。但是,这个库绝对可以胜任。如果您 运行 大量执行(每个请求 > 1000 次会减慢您的页面速度),它会有点慢。

http://htmlpurifier.org/

所有来自用户的内容都应该被转义,无论是来自 URL 还是来自数据库。在这种情况下,您只需执行 URL 编码而不是 HTML 实体。您的模板引擎可能已经足够聪明,可以为进入 HTML 属性的值执行此操作。