将字符串用于非字符串特定数据的缺点是什么?
What is the drawback for using Strings for non-String specific data?
我知道这可能是一种 "silly" 问题。我之前创建了软件应用程序,我基本上将所有变量初始化为字符串,并将它们作为 VARCHAR 保存在我的数据库中。然后,我会从数据库中收集它们并根据需要进行转换。这不是一种初始化变量并将它们保存在我的数据库中的有效方法吗?
我知道对于非常大的应用程序,这可能会导致计算时间出现问题,因为我不必要地转换了本来可以初始化为适当类型的变量。但是,对于较小的应用程序,这是 "okay" 要做的吗?
有一些原因。例如,考虑搜索 时间范围 。使用日期时间字段很容易找到。但使用字符串并不容易,因为你必须在你的应用程序中这样做。
另一点是排序 varchar 与int 类型字段不同。 varchar 10 在 2 之前,但 int 在 2 之后。
使用正确类型的一些原因
1.不出所料。 如果开发人员要从您的数据库中获取数字数据,他们会觉得您将它们存储为字符串很奇怪。
2。开发人员方便。 另一个是每次都必须将数据解析为正确类型的麻烦。如果你只是把它存储为正确的类型,那么你就可以省去人们必须把
int age = 0;
try {
age = Integer.parseInt(ageStr);
} catch (NumberFormatException e) {
throw new RuntimeException(e);
}
整个代码。
3。数据质量。 上面的代码示例暗示了第三个问题。现在有人可以在列中存储 "no_age" 或 "foo" 或其他内容,这是数据质量问题。处理错误的最好方法是首先让错误成为不可能。
4。存储效率。 存储效率也是一个因素。不同的类型有不同的数据编码方式,字符串不是存储数字、位等的有效方式
5.网络效率。 如果您以浪费的格式存储数据,那么这通常会转化为不必要的网络使用。这就是二进制格式通常比 JSON 或 XML 等文本格式更有效的原因。但是 Web 服务通常不会将网络效率视为 驱动 工程问题。
6.处理效率。如果数据本质上是数字,那么强迫每个人解析它会产生处理成本。
7.不同的类型支持不同的规则。 在他的回答中,Hightower 提出了一个很好的观点,即不同的类型有特殊的排序规则,这会影响范围和排序。我喜欢这一点,因为它会影响实际的程序行为,而我上面提到的问题对于只有一个开发人员的小型应用程序可能更具学术性。
说明效率优势的示例
假设您要存储八位。如果将其存储为字符串,则可能有 "TFFTFFTF",在 UTF-8 和 ASCII 下,它需要 64 位(8 个字符 x 每个字符 8 位)来存储八位实际信息。相对来说还是有很大区别的。
顺便说一句,即使您的数据是数字,例如只使用 BIGINT
也是不好的。数据库中不同类型的整数有不同的存储要求,所以你应该考虑你实际需要的位数,如果合适使用无符号表示(没有理由在不能为负的数字上浪费符号位),等等. 当你创建新的外键时,错误的选择往往会迅速增加,这些外键现在必须是 BIGINT,新行都有一堆 BIGINT,等等。你的存储和备份要求最终变得不必要地苛刻。
所以。是"OK"使用字符串吗?
这些效率问题对于一些小的东西可能根本不重要,这正是您所要求的。或者可能有理由更喜欢一种低效的格式而不是更有效的格式,正如我上面的 JSON/XML 示例所暗示的那样。因此,至于是否 "OK",我无法回答,但希望上述考虑因素能为您提供一些工具,让您自己做出决定。
我仍然会尝试养成使用正确类型的习惯,而且我当然不会无缘无故地把东西存储为字符串。在 bitset 情况下,我可以看到有可能避免处理位操作,这在您掌握它之前可能会很棘手。 (但有些数据库有特殊的位集类型。)你提到不知道类型,在某些情况下这可能是一个合理的原因,但我更倾向于在这里进行重构。
我知道这可能是一种 "silly" 问题。我之前创建了软件应用程序,我基本上将所有变量初始化为字符串,并将它们作为 VARCHAR 保存在我的数据库中。然后,我会从数据库中收集它们并根据需要进行转换。这不是一种初始化变量并将它们保存在我的数据库中的有效方法吗?
我知道对于非常大的应用程序,这可能会导致计算时间出现问题,因为我不必要地转换了本来可以初始化为适当类型的变量。但是,对于较小的应用程序,这是 "okay" 要做的吗?
有一些原因。例如,考虑搜索 时间范围 。使用日期时间字段很容易找到。但使用字符串并不容易,因为你必须在你的应用程序中这样做。
另一点是排序 varchar 与int 类型字段不同。 varchar 10 在 2 之前,但 int 在 2 之后。
使用正确类型的一些原因
1.不出所料。 如果开发人员要从您的数据库中获取数字数据,他们会觉得您将它们存储为字符串很奇怪。
2。开发人员方便。 另一个是每次都必须将数据解析为正确类型的麻烦。如果你只是把它存储为正确的类型,那么你就可以省去人们必须把
int age = 0;
try {
age = Integer.parseInt(ageStr);
} catch (NumberFormatException e) {
throw new RuntimeException(e);
}
整个代码。
3。数据质量。 上面的代码示例暗示了第三个问题。现在有人可以在列中存储 "no_age" 或 "foo" 或其他内容,这是数据质量问题。处理错误的最好方法是首先让错误成为不可能。
4。存储效率。 存储效率也是一个因素。不同的类型有不同的数据编码方式,字符串不是存储数字、位等的有效方式
5.网络效率。 如果您以浪费的格式存储数据,那么这通常会转化为不必要的网络使用。这就是二进制格式通常比 JSON 或 XML 等文本格式更有效的原因。但是 Web 服务通常不会将网络效率视为 驱动 工程问题。
6.处理效率。如果数据本质上是数字,那么强迫每个人解析它会产生处理成本。
7.不同的类型支持不同的规则。 在他的回答中,Hightower 提出了一个很好的观点,即不同的类型有特殊的排序规则,这会影响范围和排序。我喜欢这一点,因为它会影响实际的程序行为,而我上面提到的问题对于只有一个开发人员的小型应用程序可能更具学术性。
说明效率优势的示例
假设您要存储八位。如果将其存储为字符串,则可能有 "TFFTFFTF",在 UTF-8 和 ASCII 下,它需要 64 位(8 个字符 x 每个字符 8 位)来存储八位实际信息。相对来说还是有很大区别的。
顺便说一句,即使您的数据是数字,例如只使用 BIGINT
也是不好的。数据库中不同类型的整数有不同的存储要求,所以你应该考虑你实际需要的位数,如果合适使用无符号表示(没有理由在不能为负的数字上浪费符号位),等等. 当你创建新的外键时,错误的选择往往会迅速增加,这些外键现在必须是 BIGINT,新行都有一堆 BIGINT,等等。你的存储和备份要求最终变得不必要地苛刻。
所以。是"OK"使用字符串吗?
这些效率问题对于一些小的东西可能根本不重要,这正是您所要求的。或者可能有理由更喜欢一种低效的格式而不是更有效的格式,正如我上面的 JSON/XML 示例所暗示的那样。因此,至于是否 "OK",我无法回答,但希望上述考虑因素能为您提供一些工具,让您自己做出决定。
我仍然会尝试养成使用正确类型的习惯,而且我当然不会无缘无故地把东西存储为字符串。在 bitset 情况下,我可以看到有可能避免处理位操作,这在您掌握它之前可能会很棘手。 (但有些数据库有特殊的位集类型。)你提到不知道类型,在某些情况下这可能是一个合理的原因,但我更倾向于在这里进行重构。