是否有一个公式可以找到在一组中实现唯一性所需的最短长度

Is there a formula to find shortest length required to achieve uniqueness across a set

我希望能够计算出实现完全唯一性所需的最短子串的长度。

假设我有 32 个字符 UUID 的不同长度列表,但我想要实现的是在引用期间缩短它们,使其仅在实现其集合中的唯一性所需的长度内缩短。例如,如果我有以下一组 UUID(插入管道以说明答案)...

428|07082e1f445e79501bebfa87396af 
723|0785bffaf4747865c202dd0924c7f
b65|634be909d4e5590aa0cdc97251eef
3c4|d94c683624d75a273e3186ec65b78
09e|bd42af0404bcf90413e11c5b40fbb
011|004743d65466dae8a9a6bc814ef4b
1f1|889e04e3a453fbf57521de0a70b60
1ac|44707af8d4681875171ad47c61037
42f|7a6236deb4a9ead32ab2e816d73a3
83a|fe22086064eec87704127622b8165

我只需要前 三个 个字符就可以达到与使用完整的 32 个字符串相同的唯一性级别。

我很好奇是否有达到该值的公式。我知道我可以将它放在几个嵌套循环中,但我想知道是否有更优雅或更编程的方式来实现它。


编辑:明确一点,管道只是为了说明我可以在仅 3 个字符后实现唯一性。 formula/method 的结果应该是一个长度相等的数组,其中只有从给定集合派生的最短字符串,在本例中,只有前三个字符。想象一下,我想在 URL 中使用这些,并且我不能有任何歧义,但仍然希望能够引用相同的记录,就好像我在每种情况下都使用了完整的字符串一样。

EDIT2: 实际上...正如我所想的那样,不需要结果数组,只需要一个整数,字符所需的最小长度。

我设法创建了一些代码来实现这一点。看看:

  • 代码 1:
function check_un($array){
    $arr = $array;
    $len = 1;

    $tmp = array();

    while (list($key, $value) = each($arr)) {
        $v = substr($value, 0, $len);
        if (isset($tmp[$v])) {
            $tmp = array();
            $len++;
            reset($arr); // start again
        }
        $tmp[$v] = true;
    }
    $tmp = array_keys($tmp);
    array_shift($tmp);
    return $tmp;
}

基本上,前面的代码检查是否已经设置了作为键的给定子字符串 - 这意味着它是重复的。这样,它会转到数组的开头并再次开始检查更多字母。


  • 代码2: (更小,但更慢)
function check_un($array){
    $array = array_values($array);
    $len = 1;
    $tmp = array();
    for($i = 0; $i < strlen($array[0]); $i++){
        if( count(array_unique( $tmp = array_map(function($v) use($len){ return substr($v, 0, $len); }, $array ) )) != count($array) ){
            $len++;
        }else{
            break;
        }
    }
    return $tmp; // this was set in the array_map part
}

基本上,前面的代码检查给定子字符串长度的唯一元素的数量是否与原始数组的数量相同。这样,如果有重复的,数量会少一些,也就是说我们需要用到更多的仓位。


曾经有一个代码3(我第一次尝试),但它只在编辑历史中可用。


你可以用这个测试它们:

$values = array(
    '42807082e1f445e79501bebfa87396af',
    '7230785bffaf4747865c202dd0924c7f',
    'b65634be909d4e5590aa0cdc97251eef',
    '3c4d94c683624d75a273e3186ec65b78',
    '09ebd42af0404bcf90413e11c5b40fbb',
    '011004743d65466dae8a9a6bc814ef4b',
    '1f1889e04e3a453fbf57521de0a70b60',
    '1ac44707af8d4681875171ad47c61037',
    '42f7a6236deb4a9ead32ab2e816d73a3',
    '83afe22086064eec87704127622b8165'
    //,'42807082e1f445e795aaaaaaaaaaaaa' // add this to test with more letters
);

$val = check_un($values);

结果(两种情况):

Array
(
    [0] => 428
    [1] => 723
    [2] => b65
    [3] => 3c4
    [4] => 09e
    [5] => 011
    [6] => 1f1
    [7] => 1ac
    [8] => 42f
    [9] => 83a
)

在此处查看他们的实际操作:


您可以更改返回值以仅获取 $len 变量。

您可以利用 Array.prototype.reduce()Object.hasOwnProperty() 递归;创建一个对象来存储唯一字符集的值,如果名称不是对象的 属性,则将对象名称设置为前两个字符,否则设置第一个 n 个字符,直到对象中的每个 属性 是独一无二

var arr = ["42807082e1f445e79501bebfa87396af " 
           , "7230785bffaf4747865c202dd0924c7f" 
           , "b65634be909d4e5590aa0cdc97251eef" 
           , "3c4d94c683624d75a273e3186ec65b78"   
           , "09ebd42af0404bcf90413e11c5b40fbb" 
           , "011004743d65466dae8a9a6bc814ef4b" 
           , "1f1889e04e3a453fbf57521de0a70b60" 
           , "1ac44707af8d4681875171ad47c61037" 
           , "42f7a6236deb4a9ead32ab2e816d73a3" 
           , "83afe22086064eec87704127622b8165"];

var obj = {};

arr.reduce((o, uuid) => {
  var n = 1;
  (function re(key) {
    var curr = uuid.slice(0, key);
    if (!o.hasOwnProperty(curr)) {
      o[curr] = uuid;
    } else {
      re(key + 1)
    }
  }(n))
  return obj
}, obj);

console.log(obj, "arr length:", arr.length
           , "obj keys length:", Object.keys(obj).length);