如何通过URL防止XSS?
How to prevent XSS via URL?
我熟悉通常的持久性 XSS,其中来自用户输入的内容应该在输出到模板(html 实体)的途中进行转义。
最近,我遇到了一个非持久性问题,用户可以在 URL 上发送脚本,其中 URL 显示在页面的某处。在我的例子中,它是一个 link 标签。
所以我有以下 link 标签,它使用当前的 URL。
<link rel="next" href="{current_url}" />
问题是当有人发送 link 例如:
www.example.com/?%27;alert...
可以是 %27(单引号)和 %22(双引号)来关闭标签,因此允许用户输入脚本等。
我知道防止 XSS 的常用方法是使用 html 实体。在这种情况下,这不会破坏 URL 吗?是否可以使用 url 编码来代替?
顺便说一句,我正在使用 PHP 并且更愿意使用本机函数。
像这样:
检查这个答案,它是具有以下功能的那个:
XSS filtering function in PHP
function xss_clean($data)
{
/*
* Function to clean a string to prevent XSS attack.
*/
// Fix &entity\n;
$data = str_replace(array('&','<','>'), array('&amp;','&lt;','&gt;'), $data);
$data = preg_replace('/(&#*\w+)[\x00-\x20]+;/u', ';', $data);
$data = preg_replace('/(&#x*[0-9A-F]+);*/iu', ';', $data);
// decode
$data = html_entity_decode($data, ENT_COMPAT, 'UTF-8');
// Remove any attribute starting with "on" or xmlns
$data = preg_replace('#(<[^>]+?[\x00-\x20"\'])(?:on|xmlns)[^>]*+>#iu', '>', $data);
// Remove javascript: and vbscript: protocols
$data = preg_replace('#([a-z]*)[\x00-\x20]*=[\x00-\x20]*([`\'"]*)[\x00-\x20]*j[\x00-\x20]*a[\x00-\x20]*v[\x00-\x20]*a[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iu', '=nojavascript...', $data);
$data = preg_replace('#([a-z]*)[\x00-\x20]*=([\'"]*)[\x00-\x20]*v[\x00-\x20]*b[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iu', '=novbscript...', $data);
$data = preg_replace('#([a-z]*)[\x00-\x20]*=([\'"]*)[\x00-\x20]*-moz-binding[\x00-\x20]*:#u', '=nomozbinding...', $data);
// Only works in IE: <span style="width: expression(alert('Ping!'));"></span>
$data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?expression[\x00-\x20]*\([^>]*+>#i', '>', $data);
$data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?behaviour[\x00-\x20]*\([^>]*+>#i', '>', $data);
$data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:*[^>]*+>#iu', '>', $data);
// Remove namespaced elements (we do not need them)
$data = preg_replace('#</*\w+:\w[^>]*+>#i', '', $data);
do
{
// Remove really unwanted tags
$old_data = $data;
$data = preg_replace('#</*(?:applet|b(?:ase|gsound|link)|embed|frame(?:set)?|i(?:frame|layer)|l(?:ayer|ink)|meta|object|s(?:cript|tyle)|title|xml)[^>]*+>#i', '', $data);
}
while ($old_data !== $data);
// we are done...
return $data;
}
我知道您说过您更喜欢原生函数,但我通常能够找到击败大多数解决方案的方法。但是,这个库绝对可以胜任。如果您 运行 大量执行(每个请求 > 1000 次会减慢您的页面速度),它会有点慢。
所有来自用户的内容都应该被转义,无论是来自 URL 还是来自数据库。在这种情况下,您只需执行 URL 编码而不是 HTML 实体。您的模板引擎可能已经足够聪明,可以为进入 HTML 属性的值执行此操作。
我熟悉通常的持久性 XSS,其中来自用户输入的内容应该在输出到模板(html 实体)的途中进行转义。
最近,我遇到了一个非持久性问题,用户可以在 URL 上发送脚本,其中 URL 显示在页面的某处。在我的例子中,它是一个 link 标签。
所以我有以下 link 标签,它使用当前的 URL。
<link rel="next" href="{current_url}" />
问题是当有人发送 link 例如:
www.example.com/?%27;alert...
可以是 %27(单引号)和 %22(双引号)来关闭标签,因此允许用户输入脚本等。
我知道防止 XSS 的常用方法是使用 html 实体。在这种情况下,这不会破坏 URL 吗?是否可以使用 url 编码来代替?
顺便说一句,我正在使用 PHP 并且更愿意使用本机函数。
像这样: 检查这个答案,它是具有以下功能的那个: XSS filtering function in PHP
function xss_clean($data)
{
/*
* Function to clean a string to prevent XSS attack.
*/
// Fix &entity\n;
$data = str_replace(array('&','<','>'), array('&amp;','&lt;','&gt;'), $data);
$data = preg_replace('/(&#*\w+)[\x00-\x20]+;/u', ';', $data);
$data = preg_replace('/(&#x*[0-9A-F]+);*/iu', ';', $data);
// decode
$data = html_entity_decode($data, ENT_COMPAT, 'UTF-8');
// Remove any attribute starting with "on" or xmlns
$data = preg_replace('#(<[^>]+?[\x00-\x20"\'])(?:on|xmlns)[^>]*+>#iu', '>', $data);
// Remove javascript: and vbscript: protocols
$data = preg_replace('#([a-z]*)[\x00-\x20]*=[\x00-\x20]*([`\'"]*)[\x00-\x20]*j[\x00-\x20]*a[\x00-\x20]*v[\x00-\x20]*a[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iu', '=nojavascript...', $data);
$data = preg_replace('#([a-z]*)[\x00-\x20]*=([\'"]*)[\x00-\x20]*v[\x00-\x20]*b[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iu', '=novbscript...', $data);
$data = preg_replace('#([a-z]*)[\x00-\x20]*=([\'"]*)[\x00-\x20]*-moz-binding[\x00-\x20]*:#u', '=nomozbinding...', $data);
// Only works in IE: <span style="width: expression(alert('Ping!'));"></span>
$data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?expression[\x00-\x20]*\([^>]*+>#i', '>', $data);
$data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?behaviour[\x00-\x20]*\([^>]*+>#i', '>', $data);
$data = preg_replace('#(<[^>]+?)style[\x00-\x20]*=[\x00-\x20]*[`\'"]*.*?s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:*[^>]*+>#iu', '>', $data);
// Remove namespaced elements (we do not need them)
$data = preg_replace('#</*\w+:\w[^>]*+>#i', '', $data);
do
{
// Remove really unwanted tags
$old_data = $data;
$data = preg_replace('#</*(?:applet|b(?:ase|gsound|link)|embed|frame(?:set)?|i(?:frame|layer)|l(?:ayer|ink)|meta|object|s(?:cript|tyle)|title|xml)[^>]*+>#i', '', $data);
}
while ($old_data !== $data);
// we are done...
return $data;
}
我知道您说过您更喜欢原生函数,但我通常能够找到击败大多数解决方案的方法。但是,这个库绝对可以胜任。如果您 运行 大量执行(每个请求 > 1000 次会减慢您的页面速度),它会有点慢。
所有来自用户的内容都应该被转义,无论是来自 URL 还是来自数据库。在这种情况下,您只需执行 URL 编码而不是 HTML 实体。您的模板引擎可能已经足够聪明,可以为进入 HTML 属性的值执行此操作。