【问题标题】:Shuffle array in CC中的随机数组
【发布时间】:2018-11-19 11:43:32
【问题描述】:

我正在寻找一个 ANSI C 中的函数,它可以像 PHP 的 shuffle() 那样随机化一个数组。有这样的功能还是我必须自己写?如果我必须自己写,最好/最高效的方法是什么?

到目前为止我的想法:

  • 遍历数组,例如 100 次,然后将随机索引与另一个随机索引交换
  • 创建一个新数组并用第一个随机索引填充它,每次检查索引是否已被占用(性能 = 0 复杂性 = 严重)

【问题讨论】:

标签: c arrays


【解决方案1】:

C 标准中没有随机化数组的函数。

  • 看看 Knuth - 他有适合这项工作的算法。
  • 或查看 Bentley - Programming Pearls 或 More Programming Pearls。
  • 或者查看几乎所有算法书籍。

确保公平的洗牌(原始顺序的每个排列都有相同的可能性)很简单,但并非微不足道。

【讨论】:

  • 真的同样可能是非常困难的。例如,您的随机数生成器必须是 N 的倍数!州。
  • @Paul:只要您的 PRNG“1 到 N 之间的随机数”包装器是正确的(均匀分布),这很容易。然而,人们经常把这件事搞砸并制造偏见。
  • @Paul Hankin:是不是因为你需要生成从0i 的随机数,其中in1
  • @ninjalj:不,绝对不是。那是每个人都使用的天真的破碎算法。任何带有浮点数的东西都很难做对,所以修复它的第一步是切换到整数。然后丢弃任何大于 10 的最大倍数减 1 的结果(如果您得到一个必须丢弃的值,请再次调用 rand)。有一些方法可以保存和重用这个熵,而不是完全丢弃它,但这是更多的工作,而且当它只是伪随机时可能毫无价值。
  • @R。 glibc rand() 只有 2^32 种不同的状态,因此无论您做什么,它最多可以生成 2^32 种不同的一副牌洗牌。 52!更像是 2^225,所以你实际上生成了所有可能性的一小部分。
【解决方案2】:

Asmodiellink 粘贴到Ben Pfaff's Writings,用于持久性:

#include <stdlib.h>

/* Arrange the N elements of ARRAY in random order.
   Only effective if N is much smaller than RAND_MAX;
   if this may not be the case, use a better random
   number generator. */
void shuffle(int *array, size_t n)
{
    if (n > 1) 
    {
        size_t i;
        for (i = 0; i < n - 1; i++) 
        {
          size_t j = i + rand() / (RAND_MAX / (n - i) + 1);
          int t = array[j];
          array[j] = array[i];
          array[i] = t;
        }
    }
}

编辑:这是适用于任何类型(intstruct、...)到memcpy 的通用版本。要运行示例程序,它需要 VLA,并非每个编译器都支持此功能,因此您可能希望将其更改为 malloc(这将执行不良)或足够大的静态缓冲区以容纳您向其抛出的任何类型:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <time.h>

/* compile and run with
 * cc shuffle.c -o shuffle && ./shuffle */

#define NELEMS(x)  (sizeof(x) / sizeof(x[0]))

/* arrange the N elements of ARRAY in random order.
 * Only effective if N is much smaller than RAND_MAX;
 * if this may not be the case, use a better random
 * number generator. */
static void shuffle(void *array, size_t n, size_t size) {
    char tmp[size];
    char *arr = array;
    size_t stride = size * sizeof(char);

    if (n > 1) {
        size_t i;
        for (i = 0; i < n - 1; ++i) {
            size_t rnd = (size_t) rand();
            size_t j = i + rnd / (RAND_MAX / (n - i) + 1);

            memcpy(tmp, arr + j * stride, size);
            memcpy(arr + j * stride, arr + i * stride, size);
            memcpy(arr + i * stride, tmp, size);
        }
    }
}

#define print_type(count, stmt) \
    do { \
    printf("["); \
    for (size_t i = 0; i < (count); ++i) { \
        stmt; \
    } \
    printf("]\n"); \
    } while (0)

struct cmplex {
    int foo;
    double bar;
};

int main() {
    srand(time(NULL));

    int intarr[] = { 1, -5, 7, 3, 20, 2 };

    print_type(NELEMS(intarr), printf("%d,", intarr[i]));
    shuffle(intarr, NELEMS(intarr), sizeof(intarr[0]));
    print_type(NELEMS(intarr), printf("%d,", intarr[i]));

    struct cmplex cmparr[] = {
        { 1, 3.14 },
        { 5, 7.12 },
        { 9, 8.94 },
        { 20, 1.84 }
    };

    print_type(NELEMS(intarr), printf("{%d %f},", cmparr[i].foo, cmparr[i].bar));
    shuffle(cmparr, NELEMS(cmparr), sizeof(cmparr[0]));
    print_type(NELEMS(intarr), printf("{%d %f},", cmparr[i].foo, cmparr[i].bar));

    return 0;
}

【讨论】:

  • 为了避免每次迭代分配 t,你应该交换没有临时变量的两个整数:array[i] ^= array[j];数组[j] ^= 数组 [i];数组 [i] ^= 数组 [j];
  • 如果您不担心 int 溢出,您也可以使用array[i] += array[j]; array[j] = array[i] - array[j]; array[i] -= array[j];。我不想混淆任何新的语言关于为什么 XOR'ing 有效...
  • @Hyperboreus - 你在开玩笑吗?在堆栈上“分配”整数就像在寄存器上执行加法/减法一样简单。这本身将足够快,但更进一步,一个体面的优化器只会对这段代码执行一次加法/减法,而不是每次迭代。 (在打开优化的情况下编译它并自己查看反汇编。我使用gcc -S 这样做了,堆栈指针恰好有两次修改,一次在函数开始时,一次在结束。)通过在函数前面设置 tj 作用域,您不会节省任何任何内容
  • 注意:公式i + r / (RAND_MAX / (n - i) + 1) 引入了额外的偏差。例如j(i=32,n=61,RM=2147483647) --> { 有 2147483648 个不同的 r, j= 32 到 60 个出现 74051161 个,61 个只出现 74051140 个}。待定最坏情况i,n,RAND_MAXi+ rnd%(n-i) { j= 32 到 39 每个出现 74051161,j = 40 到 61 出现 74051160,各种 i,n,RAND_MAX 的最坏情况分布最多为 1 个不同。由于其他帖子提到了这个流行的答案,因此认为这种偏见很重要。
  • @PaulStelian:如果RAND_MAX 只是 32767,你需要给自己一个更好的 PRNG。一个简单的步骤是drand48() 系列函数;这是一组 POSIX 标准的函数。您可能会发现您有random()srandom(),或arc4random(),或者您可以使用/dev/random/dev/urandom 作为随机值的来源。有很多可能性——但你问的是一个新问题(或者应该在一个新问题中提出)。
【解决方案3】:

这是一个使用 memcpy 而不是赋值的解决方案,因此您可以将它用于任意数据的数组。您需要两倍于原始数组的内存,并且成本是线性 O(n):

void main ()
{
    int elesize = sizeof (int);
    int i;
    int r;
    int src [20];
    int tgt [20];

    for (i = 0; i < 20; src [i] = i++);

    srand ( (unsigned int) time (0) );

    for (i = 20; i > 0; i --)
    {
        r = rand () % i;
        memcpy (&tgt [20 - i], &src [r], elesize);
        memcpy (&src [r], &src [i - 1], elesize);
    }
    for (i = 0; i < 20; printf ("%d ", tgt [i++] ) );
}

【讨论】:

  • 您也可以使用void * 指针就地执行此操作,以降低额外的内存需求并限制复制到单个值——如果它是堆栈上的结构数组,这将减少数量正在制作的副本。对于更低的空间要求,在原始内存位置上随机偏移,允许使用 int 或更小(无符号 short 仍然可以管理高达 65.5k)。
【解决方案4】:

我只是回应 Neil Butterworth 的回答,并指出你第一个想法的一些问题:

你建议,

遍历数组,比如 100 次,然后用另一个随机索引交换一个随机索引

使这个严格。我假设存在 randn(int n),它是一些 RNG 的包装器,产生的数字均匀分布在 [0, n-1] 和 swap(int a[], size_t i, size_t j),

void swap(int a[], size_t i, size_t j) {
  int temp = a[i]; a[i] = a[j]; a[j] = temp;
}

交换a[i]a[j]。 现在让我们实施您的建议:

void silly_shuffle(size_t n, int a[n]) {
    for (size_t i = 0; i < n; i++)
        swap(a, randn(n), randn(n)); // swap two random elements
}

请注意,这并不比这个更简单(但仍然错误)的版本更好:

void bad_shuffle(size_t n, int a[n]) {
    for (size_t i = 0; i < n; i++)
        swap(a, i, randn(n));
}

嗯,怎么了?考虑一下这些函数给你多少排列:在 [0, n-1] 中使用 n(或 2×_n_ 表示silly_shuffle)随机选择,代码将“公平地”选择一种 _n_²(或 2×_n_²)种方式来洗牌。麻烦的是有n! = _n_×(n-1)×⋯×2×1个可能的数组排列方式,并且_n_²和2×_n_²都不是n的倍数!,证明有些排列比其他排列更有可能。

Fisher-Yates shuffle 实际上等同于您的第二个建议,只是进行了一些优化,将(性能 = 0,复杂性 = 严重)更改为(性能 = 非常好,复杂性 = 非常简单)。 (实际上,我不确定是否存在更快或更简单的正确版本。)

void fisher_yates_shuffle(size_t n, int a[n]) {
    for (size_t i = 0; i < n; i++)
        swap(a, i, i+randn(n-1-i)); // swap element with random later element
}

预计到达时间:另见 this post on Coding Horror

【讨论】:

    【解决方案5】:

    以下代码确保将根据从 usec 时间获取的随机种子对数组进行洗牌。这也正确实现了Fisher–Yates shuffle。我已经测试了这个函数的输出,它看起来不错(甚至期望任何数组元素都是 shuffle 之后的第一个元素。甚至期望是最后一个元素)。

    void shuffle(int *array, size_t n) {    
        struct timeval tv;
        gettimeofday(&tv, NULL);
        int usec = tv.tv_usec;
        srand48(usec);
    
    
        if (n > 1) {
            size_t i;
            for (i = n - 1; i > 0; i--) {
                size_t j = (unsigned int) (drand48()*(i+1));
                int t = array[j];
                array[j] = array[i];
                array[i] = t;
            }
        }
    }
    

    【讨论】:

    • 我会使用int,而不是size_t,在这种情况下,因为n 代表整数的数量,而不是内存块的大小。我更喜欢将size_t 仅用于字节大小。
    • @Mk12 元素的数量和数组的sizeof 可以比INT_MAX 多得多。在这里使用size_t 是更健壮和可移植的方法。
    • 很好,这么少的代码。使用 Microsoft 的 C 库是否快速简单?
    【解决方案6】:

    我没有在答案中看到它,所以如果它可以帮助任何人,我会提出这个解决方案:

    static inline void shuffle(size_t n, int arr[])
    {
        size_t      rng;
        size_t      i;
        int         tmp[n];
        int         tmp2[n];
    
       memcpy(tmp, arr, sizeof(int) * n);
        bzero(tmp2, sizeof(int) * n);
        srand(time(NULL));
        i = 0;
        while (i < n)
        {
            rng = rand() % (n - i);
            while (tmp2[rng] == 1)
                ++rng;
            tmp2[rng] = 1;
            arr[i] = tmp[rng];
            ++i;
        }
    }
    

    【讨论】:

    • 当我在一个包含 20 个元素的数组上测试这段代码时,最后一个元素从未交换过,倒数第二个元素很少交换。当我在一个包含 10 个元素的数组上测试它时,60% 的时间最后一个元素不变,60% 的时间倒数第二个元素不变。这似乎不是一个好的洗牌。 (它还使用了很多额外的存储空间,两个额外的数组与被洗牌的数组大小相同。这也不好。)你不应该在洗牌函数中调用srand()srand() — why call it only once
    【解决方案7】:

    您要查找的函数已经存在于标准 C 库中。它的名字是qsort。随机排序可以实现为:

    int rand_comparison(const void *a, const void *b)
    {
        (void)a; (void)b;
    
        return rand() % 2 ? +1 : -1;
    }
    
    void shuffle(void *base, size_t nmemb, size_t size)
    {
        qsort(base, nmemb, size, rand_comparison);
    }
    

    例子:

    int arr[10] = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 };
    
    srand(0); /* each permutation has its number here */
    
    shuffle(arr, 10, sizeof(int));
    

    ...输出为:

    3, 4, 1, 0, 2, 7, 6, 9, 8, 5
    

    【讨论】:

    • 这是否保证所有排列的可能性相同?我认为这不太可能。假设 PRNG 无偏,Fisher-Yates 洗牌确实保证所有排列的可能性相同。
    • @JonathanLeffler 这可能是没有希望的,因为在 C 标准中没有保证 qsort() 算法和 rand() 的质量。
    • (void)a; (void)b;有什么用?
    • @tejasvi88 这是为了避免编译器警告:warning: unused parameter ‘a’ [-Wunused-parameter]
    • @JonathanLeffler 根据我对quicksoft algorithm 的阅读,我认为它不会——随机排序数组中的初始枢轴元素位置看起来像binomial distribution,因此概率极高接近最终数组的中间。也许如果随机选择初始枢轴元素,它会起作用吗? glibcdoesn't select the initial pivot randomly,
    【解决方案8】:

    与 Nomadiq 相同的答案,但 Random 保持简单。 如果你一个接一个地调用该函数,Random 将是相同的:

    #include <stdlib.h>
    #include <time.h>
    
    void shuffle(int aArray[], int cnt){
        int temp, randomNumber;
        time_t t;
        srand((unsigned)time(&t));
        for (int i=cnt-1; i>0; i--) {
            temp = aArray[i];
            randomNumber = (rand() % (i+1));
            aArray[i] = aArray[randomNumber];
            aArray[randomNumber] = temp;
        }
    }
    

    【讨论】:

    • 欢迎来到 Stack Overflow。如果您决定回答一个已确定且正确答案的旧问题,那么在当天晚些时候添加新答案可能不会让您获得任何荣誉。如果您有一些独特的新信息,或者您确信其他答案都是错误的,请务必添加一个新答案,但是在提出问题很长时间后提供相同基本信息的“另一个答案”通常不会不会为你赢得太多荣誉。
    【解决方案9】:

    我看到了答案,我发现了一种简单的方法

    #include <stdio.h>
    #include <conio.h>
    #include <time.h>
    
    int main(void){
    
        int base[8] = {1,2,3,4,5,6,7,8}, shuffled[8] = {0,0,0,0,0,0,0,0};
        int index, sorted, discart=0;
    
        srand(time(NULL));
        for(index = 0; index<8; index++){
            discart = 0;
            while(discart==0){
                sorted = rand() % 8;
                
                if (shuffled[sorted] == 0){
                    //This here is just for control of what is happening
                    printf("-------------\n");
                    printf("index: %i\n sorted: %i \n", index,sorted);
                    printf("-------------\n");
    
                    shuffled[sorted] = base[index];
                    discart= 1;
                }
            }
        }
    
        //This "for" is just to exibe the sequence of items inside your array
        for(index=0;index<8; index++){
            printf("\n----\n");
            printf("%i", shuffled[index]);
        }
    
        return 0;
    }
    

    请注意,此方法不允许重复项。 最后,您可以使用数字和字母,只需将它们替换为字符串即可。

    【讨论】:

    • 欢迎来到 Stack Overflow。如果您决定回答一个具有完善且正确答案的旧问题,那么在当天晚些时候添加新答案可能不会让您获得任何荣誉。如果您有一些独特的新信息,或者您确信其他答案都是错误的,请务必添加一个新答案,但是在提出问题很长时间后提供相同基本信息的“另一个答案”通常不会不会为你赢得太多荣誉。
    猜你喜欢
    • 2017-06-09
    • 1970-01-01
    • 2013-06-17
    • 2015-02-08
    • 1970-01-01
    • 1970-01-01
    • 2021-01-07
    • 2015-12-31
    相关资源
    最近更新 更多