【问题标题】:Is there a formula to find shortest length required to achieve uniqueness across a set是否有一个公式可以找到在一组中实现唯一性所需的最短长度
【发布时间】:2016-07-24 02:55:49
【问题描述】:

我希望能够计算出实现完全唯一性所需的最短子字符串的长度。

假设我有一个包含 32 个字符的 UUID 的不同长度列表,但我想要实现的是在引用期间将它们缩短到只有在它们的集合中实现唯一性所需的长度。例如,如果我有以下一组 UUID(插入管道以说明答案)...

428|07082e1f445e79501bebfa87396af 
723|0785bffaf4747865c202dd0924c7f
b65|634be909d4e5590aa0cdc97251eef
3c4|d94c683624d75a273e3186ec65b78
09e|bd42af0404bcf90413e11c5b40fbb
011|004743d65466dae8a9a6bc814ef4b
1f1|889e04e3a453fbf57521de0a70b60
1ac|44707af8d4681875171ad47c61037
42f|7a6236deb4a9ead32ab2e816d73a3
83a|fe22086064eec87704127622b8165

我只需要前 三个 个字符就可以达到与使用完整的 32 个字符串相同的唯一性级别。

我很好奇是否有一个公式可以达到这个值。我知道我可以把它放在几个嵌套循环中,但我想知道是否有更优雅或编程的方式来实现这一点。


编辑:为了清楚起见,管道只是为了说明我只需 3 个字符就可以实现唯一性。公式/方法的结果应该是一个长度相等的数组,只有从给定集合派生的最短字符串,在这种情况下,只有前三个字符。想象一下,我想在 URL 中使用这些,并且我不能有任何歧义,但仍然希望能够引用相同的记录,就好像我在每种情况下都使用了完整的字符串一样。

EDIT2:实际上……我想,不需要结果数组,只需要一个整数,即字符所需的最小长度。

【问题讨论】:

  • 不能正确解释问题。管道字符左侧的字符是如何派生的?管道符左边的字符是从管道符右边的字符派生而来的吗?
  • @guest271314 检查例如428 如果您查看倒数第二个,您会发现它以42 开头,因此所有值仅在您使用3 个字符时才是唯一的。 .. 管道仅显示值开始唯一(注意我不是操作)
  • @FirstOne 仍然没有关注428 的来源?
  • @guest271314 我认为唯一性应该在集合中的每个 item 之间,而不是项目中的每个字符之间(您可以看到那里有一个 011) ...不过,操作人员应该确认这一点。
  • @FirstOne 订单不重要。

标签: javascript php mysql formula array-formulas


【解决方案1】:

我设法创建了一些代码来实现这一点。看看:

  • 代码 1:
function check_un($array){
    $arr = $array;
    $len = 1;

    $tmp = array();

    while (list($key, $value) = each($arr)) {
        $v = substr($value, 0, $len);
        if (isset($tmp[$v])) {
            $tmp = array();
            $len++;
            reset($arr); // start again
        }
        $tmp[$v] = true;
    }
    $tmp = array_keys($tmp);
    array_shift($tmp);
    return $tmp;
}

基本上,前面的代码检查给定的子字符串 put as key 是否已经设置 - 这意味着它是重复的。这样,它会转到数组的开头并再次开始检查更多的字母。


  • 代码 2: (更小,但更慢)
function check_un($array){
    $array = array_values($array);
    $len = 1;
    $tmp = array();
    for($i = 0; $i < strlen($array[0]); $i++){
        if( count(array_unique( $tmp = array_map(function($v) use($len){ return substr($v, 0, $len); }, $array ) )) != count($array) ){
            $len++;
        }else{
            break;
        }
    }
    return $tmp; // this was set in the array_map part
}

基本上,前面的代码检查给定子字符串长度的唯一元素的数量是否与原始数组的数量相同。这样一来,如果有重复,数量就会变小,这意味着我们需要使用更多的位置。


曾经有一个代码 3(我尝试的第一个),但它只在编辑历史记录中可用。


你可以用这个来测试它们:

$values = array(
    '42807082e1f445e79501bebfa87396af',
    '7230785bffaf4747865c202dd0924c7f',
    'b65634be909d4e5590aa0cdc97251eef',
    '3c4d94c683624d75a273e3186ec65b78',
    '09ebd42af0404bcf90413e11c5b40fbb',
    '011004743d65466dae8a9a6bc814ef4b',
    '1f1889e04e3a453fbf57521de0a70b60',
    '1ac44707af8d4681875171ad47c61037',
    '42f7a6236deb4a9ead32ab2e816d73a3',
    '83afe22086064eec87704127622b8165'
    //,'42807082e1f445e795aaaaaaaaaaaaa' // add this to test with more letters
);

$val = check_un($values);

结果(两种情况):

Array
(
    [0] => 428
    [1] => 723
    [2] => b65
    [3] => 3c4
    [4] => 09e
    [5] => 011
    [6] => 1f1
    [7] => 1ac
    [8] => 42f
    [9] => 83a
)

在此处查看它们的实际操作:


您可以更改返回值以仅获取$len 变量。

【讨论】:

  • 基准测试:每个方法运行 10 次,每次迭代都会生成 10k UUID,然后取平均值。时间以秒为单位。 代码 1(低|平均|高):0.01338 | 0.02279 | 0.03211 代码 2(低|平均|高):0.66395 | 0.73791 |如您所见,0.84190 Code 1 明显更快!当代码 1 针对 50k uuid 的 10x 运行时,平均值为 0.13199!!!
  • @oucil code 2 做了太多“不必要的”操作——我只是想让它更小^^——这就是它更密集的原因。我刚刚测试了从问题设置的 1kk 次,代码 1 赢得了近 3 秒(代码 1 上总共 14.8 秒)xD...
【解决方案2】:

你可以使用Array.prototype.reduce()Object.hasOwnProperty()递归;创建一个对象来存储唯一字符集的值,如果名称不是对象的属性,则将对象名称设置为前两个字符,否则先设置n 个字符,直到对象中的每个属性都是唯一的

var arr = ["42807082e1f445e79501bebfa87396af " 
           , "7230785bffaf4747865c202dd0924c7f" 
           , "b65634be909d4e5590aa0cdc97251eef" 
           , "3c4d94c683624d75a273e3186ec65b78"   
           , "09ebd42af0404bcf90413e11c5b40fbb" 
           , "011004743d65466dae8a9a6bc814ef4b" 
           , "1f1889e04e3a453fbf57521de0a70b60" 
           , "1ac44707af8d4681875171ad47c61037" 
           , "42f7a6236deb4a9ead32ab2e816d73a3" 
           , "83afe22086064eec87704127622b8165"];

var obj = {};

arr.reduce((o, uuid) => {
  var n = 1;
  (function re(key) {
    var curr = uuid.slice(0, key);
    if (!o.hasOwnProperty(curr)) {
      o[curr] = uuid;
    } else {
      re(key + 1)
    }
  }(n))
  return obj
}, obj);

console.log(obj, "arr length:", arr.length
           , "obj keys length:", Object.keys(obj).length);

【讨论】:

  • 很好的尝试,但是在你生成的结果集中,如果我使用“4”,它会模棱两可,因为它也会匹配“42”的开头。为了确保我选择了正确的“4”,每次我引用一个 ID 时都必须重新运行它,以确保我的目标是正确的匹配。避免歧义的唯一方法是确保所有缩减后的 ID 长度相同。
  • @oucil "结果集应该是一个尽可能短的子字符串数组" , "实际上可以从长度为1" @ 987654325@ 没有歧义。对象的属性值是唯一的。一旦4 被设置为属性名称,4 就不能再单独用于在对象上设置属性名称。也就是说,除非要求将最小长度字符串作为参考,而不是任何长度的唯一字符串作为参考。方法从1 开始,仅当先前字符串的索引0 处的字符已用作属性名称时才移动到2
  • 这可能并不完全清楚,但我没有存储较短的 ID,因为它们需要能够随着更多记录添加到集合中而增长,因此没有可供参考的映射。所以我仍然需要做一个通配符查询,我只知道 ID 的开头。因为我知道在我的示例中 ID 在三个字符处是唯一的,所以我只需要提供这三个字符来识别正确的记录。如果我只使用第一个字符,即使它在您的结果集中是唯一的,但在实际使用中却是模棱两可的。
  • @oucil 在这种情况下,调用.slice(0, 3) 应该返回预期结果
  • 但是我们不知道我们只需要三个字符,如果我们需要四个字符是唯一的呢?我要的是告诉我需要 3... 或 4.... 或 8 个字符的公式。
猜你喜欢
  • 2019-12-05
  • 2014-12-11
  • 2011-06-14
  • 1970-01-01
  • 2013-12-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多