清理 filter_var PHP 字符串但保留 " '

Sanitize filter_var PHP string but keep " '

我正在清理联系表格字符串:

$note = filter_var($_POST["note"], FILTER_SANITIZE_STRING);

这很好用,除非人们用英寸 (") 和英尺 (') 书写。所以 I'm interested in 5" 8" 10" & 1' 显示为 I'm interested in 5" 8" 10" & 1' 这有点乱码。

我可以消毒并保持我的身高 5 英尺 9 英寸吗?

计算机数据本身既无害也无害。这只是一条信息,以后可以用于特定目的。

有时,数据被用作计算机源代码,此类代码最终导致物理动作(磁盘旋转、LED 闪烁、图片上传到远程计算机、恒温器关闭锅炉...)。那时(也只有那时)数据可能变得有害;由于软件错误,我们有时甚至会失去昂贵的 space 船。

您自己编写的代码可能有害或无害,具体取决于您的能力或诚意。当您的应用程序存在允许执行不受信任的第三方代码的漏洞时,就会出现大问题。这在 Web 应用程序中尤为严重,这些应用程序连接到开放的互联网,并且预计会从世界任何地方接收数据。但是,这在物理上怎么可能呢?有几种方法,但最典型的情况是动态生成的代码,这种情况在现代 www.您使用 PHP 生成 SQL、HTML、JavaScript... 如果您选择不受信任的任意数据(例如 URL 参数或表单字段)并且用它来编写稍后将执行的代码(由您的服务器或访问者的浏览器执行)有人可能会被黑客攻击(您或您的用户)。

您每天都会在 Stack Overflow 上看到:

$username = $_POST["username"];
$row = mysql_fetch_array(mysql_query("select * from users where username='$username'"));
<td><?php echo $row["title"]; ?></td>
var id = "<?php echo $_GET["id"]; ?>";

面对这个问题,有人提出:让我们消毒吧!很明显,有些角色是邪恶的,所以我们将把它们全部移除,这样就完成了,对吧?然后我们看到这样的东西:

$username = $_POST["username"];
$username = strip_tags($username);
$username = htmlentities($username);
$username = stripslashes($username);
$row = mysql_fetch_array(mysql_query("select * from users where username='$username'"));

这是一个令人惊讶的普遍误解,甚至一些专业人士也采用了这种误解。您到处都可以看到这些症状:您的评论首先是 < 符号,您在注册时得到 "your password cannot contain spaces" 并且您在常见问题解答中阅读 Why can’t I use certain words like "drop" as part of my Security Question answers?。它甚至存在于计算机语言中:每当您在函数名称中阅读 "sanitize"、"escape"...(没有进一步的上下文)时,您就会很好地暗示这可能是一种误入歧途的努力。

这一切都是为了明确区分数据和代码:用户提供数据,但只有您提供代码。并且没有通用的通用解决方案,因为每种计算机语言都有自己的语法和规则。 DROP TABLE users; 在 SQL 中可能非常危险:

mysql> DROP TABLE users;
Query OK, 56020 rows affected (0.52 sec)

(哎呀!)...但它并没有那么糟糕JavaScript。看,它甚至没有 运行:

C:\>node
> DROP TABLE users;
SyntaxError: Unexpected identifier
    at Object.exports.createScript (vm.js:24:10)
    at REPLServer.defaultEval (repl.js:235:25)
    at bound (domain.js:287:14)
    at REPLServer.runBound [as eval] (domain.js:300:12)
    at REPLServer.<anonymous> (repl.js:427:12)
    at emitOne (events.js:95:20)
    at REPLServer.emit (events.js:182:7)
    at REPLServer.Interface._onLine (readline.js:211:10)
    at REPLServer.Interface._line (readline.js:550:8)
    at REPLServer.Interface._ttyWrite (readline.js:827:14)
>

最后一个例子也说明了这不仅仅是一个安全问题。即使您没有被黑客入侵,从随机输入生成代码也只会让您的应用程序崩溃:

SELECT * FROM customers WHERE last_name='O'Brian';

You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'Brian''

那么,没有通用的解决方案怎么办呢?

  1. 理解问题:

    如果您不正确地注入原始文字数据,它可能会变成代码(有时是无效代码)。

  2. 使用每种技术的具体机制:

    如果目标语言需要转义:

    <p><3 to code</p><p>&lt;3 to code</p>

    ...找一个具体的源语言转义工具:

    echo '<p>' . htmlspecialchars($motto) . '</p>';
    

    如果language/framework/technology允许在单独的通道中发送数据,请这样做:

     $sql = 'SELECT password_hash FROM user WHERE username=:username';
     $params = array(
         'username' => $username,
     );