如何通过URL防止XSS？

Question

我熟悉通常的持久性 XSS，其中来自用户输入的内容应该在输出到模板（html 实体）的途中进行转义。

最近，我遇到了一个非持久性问题，用户可以在 URL 上发送脚本，其中 URL 显示在页面的某处。在我的例子中，它是一个 link 标签。

所以我有以下 link 标签，它使用当前的 URL。

<link rel="next" href="{current_url}" />

问题是当有人发送 link 例如：

www.example.com/?%27;alert...

可以是 %27（单引号）和 %22（双引号）来关闭标签，因此允许用户输入脚本等。

我知道防止 XSS 的常用方法是使用 html 实体。在这种情况下，这不会破坏 URL 吗？是否可以使用 url 编码来代替？

顺便说一句，我正在使用 PHP 并且更愿意使用本机函数。

Answer 1

像这样：检查这个答案，它是具有以下功能的那个： XSS filtering function in PHP

 function xss_clean($data)
    {
        /*
         * Function to clean a string to prevent XSS attack.
         */

        // Fix &entity\n;
        $data = str_replace(array('&amp;','&lt;','&gt;'), array('&amp;amp;','&amp;lt;','&amp;gt;'), $data);
        $data = preg_replace('/(&#*\w+)[\x00-\x20]+;/u', ';', $data);
        $data = preg_replace('/(&#x*[0-9A-F]+);*/iu', ';', $data);

        // decode
        $data = html_entity_decode($data, ENT_COMPAT, 'UTF-8');

        // Remove any attribute starting with "on" or xmlns
        $data = preg_replace('#(<[^>]+?[\x00-\x20"\'])(?:on|xmlns)[^>]*+>#iu', '>', $data);

        // Remove javascript: and vbscript: protocols
        $data = preg_replace('#([a-z]*)[\x00-\x20]*=[\x00-\x20]*([`\'"]*)[\x00-\x20]*j[\x00-\x20]*a[\x00-\x20]*v[\x00-\x20]*a[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iu', '=nojavascript...', $data);
        $data = preg_replace('#([a-z]*)[\x00-\x20]*=([\'"]*)[\x00-\x20]*v[\x00-\x20]*b[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iu', '=novbscript...', $data);
        $data = preg_replace('#([a-z]*)[\x00-\x20]*=([\'"]*)[\x00-\x20]*-moz-binding[\x00-\x20]*:#u', '=nomozbinding...', $data);

        // Only works in IE: <span style="width: expression(alert('Ping!'));"></span>
        $data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?expression[\x00-\x20]*\([^>]*+>#i', '>', $data);
        $data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?behaviour[\x00-\x20]*\([^>]*+>#i', '>', $data);
        $data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:*[^>]*+>#iu', '>', $data);

        // Remove namespaced elements (we do not need them)
        $data = preg_replace('#</*\w+:\w[^>]*+>#i', '', $data);

        do
        {
            // Remove really unwanted tags
            $old_data = $data;
            $data = preg_replace('#</*(?:applet|b(?:ase|gsound|link)|embed|frame(?:set)?|i(?:frame|layer)|l(?:ayer|ink)|meta|object|s(?:cript|tyle)|title|xml)[^>]*+>#i', '', $data);
        }
        while ($old_data !== $data);

        // we are done...
        return $data;
    }

Answer 2

我知道您说过您更喜欢原生函数，但我通常能够找到击败大多数解决方案的方法。但是，这个库绝对可以胜任。如果您运行大量执行（每个请求 > 1000 次会减慢您的页面速度），它会有点慢。

http://htmlpurifier.org/

Answer 3

所有来自用户的内容都应该被转义，无论是来自 URL 还是来自数据库。在这种情况下，您只需执行 URL 编码而不是 HTML 实体。您的模板引擎可能已经足够聪明，可以为进入 HTML 属性的值执行此操作。

如何通过URL防止XSS？

How to prevent XSS via URL?

javascript

php

xss

url-encoding

html-entities