自然键的crc32作为主键
crc32 of natural key as a primary key
我有一个 TCG 卡片数据库,我正在尝试确定一个主键。我最初使用代理键解决,但我意识到有时我会忘记添加一些卡片,例如赠卡。这对代理键来说是有问题的,因为它们是用最新的自动增量添加到数据库中的,我不希望它们的 ID 取决于它们插入的顺序。我在想也许我可以对某些卡片功能进行哈希处理并将其用作主键?
以下面的伪代码为例:
// set code, date released, collector number, name
$crc = crc32(implode(',', ['A', '1993-08-03', '232a', 'black lotus']));
echo $crc; // 4199975187
卡片的可能数量现在徘徊在 25k 左右,并且每 6 个月增加 100-300 左右。
- 按照这个速度,不会发生碰撞吧?
- 这是好的做法吗?我还有其他好的选择吗?
我知道我可以通过将哈希值转换为 base 62
来缩短哈希值,但我会将它们加入用户的清单 table 所以我认为将它们保留在 int
中是最好的选择。
我对此表示反对:
This is problematic with the surrogate key because they get added to the database with the latest auto increment and I didn't want their IDs to depend on the order they were inserted.
ID(正确:"Id",因为它是缩写,而不是首字母缩写词)是 "Identity" 的缩写,它具有每个元素唯一的 属性,即即,它用于标识每个元素。您不应附加任何其他含义,因此它随插入顺序单调增加的事实是无关紧要的,并且按生成的标识列对数据进行排序是没有意义的(除非它位于用于按 ID 查找的索引中)。在这种情况下,您应该将 ID 视为不透明句柄。
当然,如果您使用摘要(例如 CRC-32),Id 的排序顺序是没有意义的,但实际上比单调递增的 Id 更实用。
您正确识别了哈希冲突的风险,CRC-32 的范围 space 只有 32 位,如果您有 25,000 张卡片,那么生日问题会告诉我们哈希冲突的几率在这么小的范围内 space 不是微不足道的。
只需使用自动生成的 Id 值。 :)
使用计算出的散列作为标识符/键确实有实用性 - 这就是散列-tables 的工作方式,因为它允许您按值快速找到某些东西,而无需实际搜索所有 table(例如,要找到 Black Lotus 卡,像您一样获取其属性的哈希值,然后在 ID 列中查找计算出的哈希值,而不必执行 SELECT ... WHERE code = 'A' AND ... AND name = 'black lotus'
,但它确实需要您知道首先是每个 属性 值,如果您设置了正确的 table 索引,这很快就会变得没有实际意义。
使用散列作为主键的主要问题是:
- 主键应该是 immutable ("never-changing")
- 密钥现在取决于数据
- 如果数据发生变化,(例如 "blcak lotus" 变为 "Black Lotus")则密钥无效,必须重新创建,但您不能这样做,因为密钥是 immutable ...使先前计算的 Id 无效。
QED:)
学习这个link:-
http://preshing.com/20110504/hash-collision-probabilities/
您会看到,对于 任何 32 位散列和 25K 以上的值,发生冲突的几率接近十分之一——无论散列算法有多好。
您要么需要一种处理冲突的机制,要么改用 64 位哈希算法。根据这个,CRC64 似乎已经足够好了
crc collisions at various bit sizes 1820 万个样本零碰撞。
我有一个 TCG 卡片数据库,我正在尝试确定一个主键。我最初使用代理键解决,但我意识到有时我会忘记添加一些卡片,例如赠卡。这对代理键来说是有问题的,因为它们是用最新的自动增量添加到数据库中的,我不希望它们的 ID 取决于它们插入的顺序。我在想也许我可以对某些卡片功能进行哈希处理并将其用作主键?
以下面的伪代码为例:
// set code, date released, collector number, name
$crc = crc32(implode(',', ['A', '1993-08-03', '232a', 'black lotus']));
echo $crc; // 4199975187
卡片的可能数量现在徘徊在 25k 左右,并且每 6 个月增加 100-300 左右。
- 按照这个速度,不会发生碰撞吧?
- 这是好的做法吗?我还有其他好的选择吗?
我知道我可以通过将哈希值转换为 base 62
来缩短哈希值,但我会将它们加入用户的清单 table 所以我认为将它们保留在 int
中是最好的选择。
我对此表示反对:
This is problematic with the surrogate key because they get added to the database with the latest auto increment and I didn't want their IDs to depend on the order they were inserted.
ID(正确:"Id",因为它是缩写,而不是首字母缩写词)是 "Identity" 的缩写,它具有每个元素唯一的 属性,即即,它用于标识每个元素。您不应附加任何其他含义,因此它随插入顺序单调增加的事实是无关紧要的,并且按生成的标识列对数据进行排序是没有意义的(除非它位于用于按 ID 查找的索引中)。在这种情况下,您应该将 ID 视为不透明句柄。
当然,如果您使用摘要(例如 CRC-32),Id 的排序顺序是没有意义的,但实际上比单调递增的 Id 更实用。
您正确识别了哈希冲突的风险,CRC-32 的范围 space 只有 32 位,如果您有 25,000 张卡片,那么生日问题会告诉我们哈希冲突的几率在这么小的范围内 space 不是微不足道的。
只需使用自动生成的 Id 值。 :)
使用计算出的散列作为标识符/键确实有实用性 - 这就是散列-tables 的工作方式,因为它允许您按值快速找到某些东西,而无需实际搜索所有 table(例如,要找到 Black Lotus 卡,像您一样获取其属性的哈希值,然后在 ID 列中查找计算出的哈希值,而不必执行 SELECT ... WHERE code = 'A' AND ... AND name = 'black lotus'
,但它确实需要您知道首先是每个 属性 值,如果您设置了正确的 table 索引,这很快就会变得没有实际意义。
使用散列作为主键的主要问题是:
- 主键应该是 immutable ("never-changing")
- 密钥现在取决于数据
- 如果数据发生变化,(例如 "blcak lotus" 变为 "Black Lotus")则密钥无效,必须重新创建,但您不能这样做,因为密钥是 immutable ...使先前计算的 Id 无效。
QED:)
学习这个link:- http://preshing.com/20110504/hash-collision-probabilities/
您会看到,对于 任何 32 位散列和 25K 以上的值,发生冲突的几率接近十分之一——无论散列算法有多好。
您要么需要一种处理冲突的机制,要么改用 64 位哈希算法。根据这个,CRC64 似乎已经足够好了 crc collisions at various bit sizes 1820 万个样本零碰撞。