【C#数据结构系列】排序

　　排序（Sort）是计算机程序设计中的一种重要操作，也是日常生活中经常遇到的问题。例如，字典中的单词是以字母的顺序排列，否则，使用起来非常困难。同样，存储在计算机中的数据的次序，对于处理这些数据的算法的速度和简便性而言，也具有非常深远的意义。

1.1:基本概念

　　排序是把一个记录（在排序中把数据元素称为记录）集合或序列重新排列成按记录的某个数据项值递增（或递减）的序列。

　　作为排序依据的数据项称为“排序项”，也称为记录的关键码(Keyword)。关键码分为主关键码(Primary Keyword)和次关键码(Secondary Keyword)。一般地，若关键码是主关键码，则对于任意待排序的序列，经排序后得到的结果是唯一的；若关键码是次关键码，排序的结果不一定唯一，这是因为待排序的序列中可能存在具有相同关键码值的记录。此时，这些记录在排序结果中，它们之间的位置关系与排序前不一定保持一致。如果使用某个排序方法对任意的记录序列按关键码进行排序，相同关键码值的记录之间的位置关系与排序前一致，则称此排序方法是稳定的；如果不一致，则称此排序方法是不稳定的。

　　例如，一个记录的关键码序列为（31，2，15，7，91，7*），可以看出，关键码为 7 的记录有两个（第二个加“*”号以区别，以下同）。若采用一种排序方法得到的结果序列为（2，7，7*，15，31，91），则该排序方法是稳定的；若采用另外一种排序方法得到的结果序列为（1，7*，7，15，31，91），则这种排序方法是不稳定的。

　　由于待排序的记录的数量不同，使得排序过程中涉及的存储器不同，可将排序方法分为内部排序（Internal Sorting）和外部排序（External Sorting）两大类。

　内部排序指的是在排序的整个过程中，记录全部存放在计算机的内存中，并且在内存中调整记录之间的相对位置，在此期间没有进行内、外存的数据交换。

　外部排序指的是在排序过程中，记录的主要部分存放在外存中，借助于内存逐步调整记录之间的相对位置。在这个过程中，需要不断地在内、外存之间交换数据。

　显然，内部排序适用于记录不多的文件。而对于一些较大的文件，由于内存容量的限制，不能一次全部装入内存进行排序，此时采用外部排序较为合适。但外部排序的速度比内部排序要慢的多。内部排序和外部排序各有许多不同的排序方法。本书只讨论内部排序的各种方法。

　　任何算法的实现都和算法所处理的数据元素的存储结构有关。线性表的两种典型存储结构是顺序表和链表。由于顺序表具有随机存取的特性，存取任意一个数据元素的时间复杂度为 O(1)，而链表不具有随机存取特性，存取任意一个数据元素的时间复杂度为 O(n)，所以，排序算法基本上是基于顺序表而设计的。

　　由于排序是以记录的某个数据项为关键码进行排序的，所以，为了讨论问题的方便，假设顺序表中只存放记录的关键码，并且关键码的数据类型是整型，也就是说，使用的顺序表是整型的顺序表 SeqList<int>，下面讨论各种排序方法简写为 SeqList。

　　排序有非递增有序和非递减排序排序两种。不失一般性，我们只讨论的所有排序算法都是按关键码非递减有序设计的。

1.2 简单排序方法

　　1.2.1直接插入排序

　　插入排序（Insertion Sort）的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序在实现上，通常采用in-place排序（即只需用到O(1)的额外空间的排序：意思是所有的操作都是”就地“操作，不允许进行移动，或者称作原位操作，即不允许使用临时变量。如通常交换两个数的值可以通过异或操作实现），因而在从后向前扫描过程中，需要反复把已排序元素逐步向后挪位，为最新元素提供插入空间。

　　（1）：算法描述

　　一般来说，插入排序都采用in-place在数组上实现。具体算法描述如下：

　　1.从第一个元素开始，该元素可以认为已经被排序
　　2.取出下一个元素，在已经排序的元素序列中从后向前扫描
　　3.如果该元素（已排序）大于新元素，将该元素移到下一位置
　　4.重复步骤3，直到找到已排序的元素小于或者等于新元素的位置
　　5.将新元素插入到该位置后
　　6.重复步骤2~5

　　（2）：排序的过程如下：

　　（3）：c#实现

 1 public SeqList<int> InsertSort(SeqList<int> sqList)
 2         {
 3             for (int i = 1; i < sqList.GetLength(); i++)
 4             {
 5                 int tmp = sqList[i];
 6                 int j = i;
 7                 while (j > 0 && sqList[j - 1] > tmp)
 8                 {
 9                     sqList[j] = sqList[j - 1];
10                     j--;
11                 }
12                 sqList[j] = tmp;
13             }
14 
15             return sqList;
16         }

View Code

　　直接插入排序算法的时间复杂度分为最好、最坏和随机三种情况：

　　最差时间复杂度 О(n²)

　　最优时间复杂度 О(n²)

　　平均时间复杂度 О(n²)

　（1）最好的情况是顺序表中的记录已全部排好序。这时外层循环的次数为n-1，内层循环的次数为 0。这样，外层循环中每次记录的比较次数为 1，所以直接插入排序算法在最好情况下的时间复杂度为 O(n)。

　（2）最坏情况是顺序表中记录是反序的。这时内层循环的循环系数每次均为 j。直接插入排序算法在最坏情况下的时间复杂度为O(n2)。

　（3）如果顺序表中的记录的排列是随机的，则记录的期望比较次数为n2/4。因此，直接插入排序算法在一般情况下的时间复杂度为O(n2)。

　可以证明，顺序表中的记录越接近于有序，直接插入排序算法的时间效率越高，其时间效率在O(n)到O(n2)之间。直接插入排序算法的空间复杂度为 O(1)。因此，直接插入排序算法是一种稳定的排序算法。

　　1.2.2 冒泡排序

　　冒泡排序（Bubble Sort，台湾译为：泡沫排序或气泡排序）是一种简单的排序算法。它重复地走访过要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。
　　冒泡排序对n个项目需要O(n^2)的比较次数，且可以原地排序。尽管这个算法是最简单了解和实作的排序算法之一，但它对于少数元素之外的数列排序是很没有效率的。
冒泡排序是与插入排序拥有相等的执行时间，但是两种法在需要的交换次数却很大地不同。在最坏的情况，冒泡排序需要O(n^2)次交换，而插入排序只要最多O(n)交换。冒泡排序的实现（类似下面）通常会对已经排序好的数列拙劣地执行（O(n^{2})），而插入排序在这个例子只需要O(n)个运算。因此很多现代的算法教科书避免使用冒泡排序，而用插入排序取代之。冒泡排序如果能在内部循环第一次执行时，使用一个旗标来表示有无需要交换的可能，也有可能把最好的复杂度降低到O(n)。在这个情况，在已经排序好的数列就无交换的需要。若在每次走访数列时，把走访顺序和比较大小反过来，也可以稍微地改进效率。有时候称为往返排序，因为算法会从数列的一端到另一端之间穿梭往返。

　　（1）：算法描述
　　1.比较相邻的元素。如果第一个比第二个大，就交换他们两个。
　　2.对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。在这一点，最后的元素应该会是最大的数。
　　3.针对所有的元素重复以上的步骤，除了最后一个。
　　4.持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。

　　（2）：排序的过程如下：

　　（3）：c#实现

 1 public SeqList<int> BubbleSort(SeqList<int> sqList)
 2         {
 3             for (int i = 0; i < sqList.GetLength(); i++)
 4             {
 5                 for (int j = sqList.GetLength() - 1; j > i; j--)
 6                 {
 7                     if (sqList[j] < sqList[j - 1])
 8                     {
 9                         //sqList[j] = sqList[j] ^ sqList[j - 1];
10                         //sqList[j - 1] = sqList[j] ^ sqList[j - 1];
11                         //sqList[j] = sqList[j] ^ sqList[j - 1];
12                         int temp = sqList[j];
13                         sqList[j] = sqList[j - 1];
14                         sqList[j - 1] = temp;
15                     }
16                 }
17             }
18 
19             return sqList;
20         }

View Code

　　最差时间复杂度 $【C#数据结构系列】排序$

　　最优时间复杂度 $【C#数据结构系列】排序$

　　平均时间复杂度 $【C#数据结构系列】排序$

　　冒泡排序算法的最好情况是记录已全部排好序，这时，循环 n-1 次，每次循环都因没有数据交换而退出。因此，冒泡排序算法在最好情况下的时间复杂度为O(n)。

　　冒泡排序算法的最坏情况是记录全部逆序存放，冒泡排序算法在最坏情况下的时间复杂度为O(n2)。

　　冒泡排序算法只需要一个辅助空间用于交换记录，所以，冒泡排序算法是一种稳定的排序方法。

　　1.2.3 简单选择排序

　　选择排序(Selection sort)是一种简单直观的排序算法。它的工作原理如下。首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置，然后，再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。以此类推，直到所有元素均排序完毕。
　　选择排序的主要优点与数据移动有关。如果某个元素位于正确的最终位置上，则它不会被移动。选择排序每次交换一对元素，它们当中至少有一个将被移到其最终位置上，因此对n个元素的表进行排序总共进行至多n-1次交换。在所有的完全依靠交换去移动元素的排序方法中，选择排序属于非常好的一种。

　　（1）：排序的过程如下：