我应该何时(以及为什么何时)以及如何清理 php 中 POST JSON 中的数据(这样输出可用于 Swift 和 HTML)

When (and why the when) and how should I sanitize data from POST JSON in php (such that output usable in Swift AND HTML)

过去几天,我阅读了很多关于使用 PHP 对输入和输出数据进行清理以防止(最突出的)XSS 和 SQL 注入的资源,i.a。关于SO的一堆问题。然而,在这一点上,我觉得我对我应该做什么和不应该做什么感到更加困惑和不安全,部分原因是一些相反的信息,例如我读过很多次,如果我使用准备好的语句,我不需要使用 mysqli_real_escape_string 或任何其他形式的输入清理,其他消息来源说我无论如何都应该使用它,甚至我应该 ; this page by Apple 相当粗略地(?)讨论了这个话题;等等 因此,我真的很感激对我应该做什么的一些澄清 - 最好但不一定是由在该领域(服务器端安全)有一些经验的人,例如,由于在这个领域工作,在这方面做了很多研究,甚至可能站在攻击者一边(?)。

为了更好地了解我的情况,我将尽可能简明扼要地回顾一下:

我目前正在使用 Swift (iOS) 编写应用程序,需要将一些数据发送到我的服务器,并使用 SQL 将其保存在 table 中并且可以由其他用户检索(例如用于博客)。

为此,我将数据通过 POST 编码为 JSON 发送到我的服务器(“myphp.php”;使用 Alamofire,这应该不是很重要,虽然)并在那里解码。这是我不确定是否应该以某种方式清理我的数据的第一个地方(参考我上面链接的问题)。无论如何,然后我继续例如使用准备好的语句(MySQL,所以没有模拟)将其插入 table 中。此外,我还希望我输出的数据可用于 html,或者整个 PHP 也可用于 AJAX。

这是我的意思的一个例子:

// SWIFT
// set parameters for request
let parameters: Parameters = [
    “key”: “value”,
    ...
]

// request with json encoded parameters
Alamofire.request(“myphp.php”, method: .post, parameters: parameters, encoding: JSONEncoding.default)
.validate().responseJSON(completionHandler: { (response) in
// do things with data (e.g. show blog post)

// PHP
header('Content-Type: application/json');

$decodedPost = json_decode(file_get_contents('php://input'), true);

// what to do with input...?

// PREPARED STATEMENTS: insert, select, etc.

// what to do with output...?

// echo response - json-encoded so that
// json completion handler in swift can work with it 
echo json_encode($output, JSON_NUMERIC_CHECK);

我就此向一位朋友征求了一些建议,他告诉我他总是执行以下操作(xss_clean() 也是他发给我的一个功能)——无论数据是输入还是输出:

$key = xss_clean(mysqli_real_escape_string($db, trim(htmlspecialchars($data)))); 
// e.g. $data = decodedPost["key"]

然而,不仅我的研究告诉我这可能没有必要,而且他还告诉我这有其局限性,最明显的是当数据应该从服务器再次检索并再次显示到例如。另一个用户 - 尽可能接近原始输入。

如您所见,我真的很困惑。我想尽我所能保护发送到服务器的用户数据,所以这对我来说是一个非常重要的话题。我希望这个问题不会太宽泛,但正如我所说,许多其他问题至少部分是矛盾的或非常古老的,例如仍然使用简单的 mysql 扩展并且没有准备好的语句。 如果您需要更多信息,请随时询问。非常感谢参考官方文件(以支持答案)。谢谢!

输入清理是一个误导性术语,表示您可以在所有数据上挥舞魔杖并使其成为 "safe data"。问题是 "safe" 的定义在数据由不同的软件解释时会发生变化,编码要求也会发生变化。同样,"valid" 数据的概念因上下文而异 - 您的数据很可能需要特殊字符(',",&,<) - 请注意,SO 允许所有这些作为数据。

可以安全地嵌入到 SQL 查询中的输出可能不适合嵌入到 HTML 中。或者 Swift。或者 JSON。或者 shell 命令。或 CSV。并且剥离(或完全拒绝)值以使其可以安全地嵌入所有这些上下文(以及许多其他上下文)中的限制太多了。

那我们该怎么办呢?确保数据永远不会造成伤害。实现这一目标的最佳方法是首先避免对数据进行解释。参数化 SQL 查询就是一个很好的例子;参数永远不会被解释为 SQL,它们只是作为数据放入数据库中。

相同的数据可用于其他格式,例如 HTML。在这种情况下,数据应该在嵌入时针对该特定语言进行编码/转义。因此,为了防止 XSS,数据在被放入输出时应该进行 HTML 转义(或 javascript 或 URL 转义)。不是在输入时。这同样适用于其他嵌入情况。

那么,我们是否应该将我们得到的任何东西直接传递给数据库?

不 - 您肯定可以检查有关用户输入的内容,但这高度依赖于上下文。让我们称之为它是什么 - 验证。确保这是在服务器上完成的。一些例子:

  • 如果一个字段应该是一个整数,你当然可以验证这个字段以确保它包含一个整数(或者可能是 NULL)。
  • 您通常可以检查特定值是否是一组已知值中的一个(白名单验证)
  • 您可以要求大多数字段具有最小和最大长度。
  • 您通常应该验证任何字符串仅包含对其编码有效的字符(例如,没有无效的 UTF-8 序列)

如您所见,这些检查非常依赖上下文。所有这些都是为了帮助您增加最终获得有意义数据的几率。它们不应该是保护您的应用程序免受恶意输入(SQL 注入、XSS、命令注入等)的唯一防御,因为这不是这样做的地方。