排序(Sort)是计算机程序设计中的一种重要操作,也是日常生活中经常遇到的问题。例如,字典中的单词是以字母的顺序排列,否则,使用起来非常困难。同样,存储在计算机中的数据的次序,对于处理这些数据的算法的速度和简便性而言,也具有非常深远的意义。 

    1.1:基本概念

  排序是把一个记录(在排序中把数据元素称为记录)集合或序列重新排列成按记录的某个数据项值递增(或递减)的序列。 

  作为排序依据的数据项称为“排序项”,也称为记录的关键码(Keyword)。键码分为主关键码(Primary Keyword)和次关键码(Secondary Keyword)。一般地,若关键码是主关键码,则对于任意待排序的序列,经排序后得到的结果是唯一的;若关键码是次关键码,排序的结果不一定唯一,这是因为待排序的序列中可能存在具有相同关键码值的记录。此时,这些记录在排序结果中,它们之间的位置关系与排序前不一定保持一致。如果使用某个排序方法对任意的记录序列按关键码进行排序,相同关键码值的记录之间的位置关系与排序前一致,则称此排序方法是稳定的;如果不一致,则称此排序方法是不稳定的。 

  例如,一个记录的关键码序列为(31,2,15,7,91,7*),可以看出,关键码为 7 的记录有两个(第二个加“*”号以区别,以下同)。若采用一种排序方法得到的结果序列为(2,7,7*,15,31,91),则该排序方法是稳定的;若采用另外一种排序方法得到的结果序列为(1,7*,7,15,31,91),则这种排序方法是不稳定的。 

  由于待排序的记录的数量不同,使得排序过程中涉及的存储器不同,可将排序方法分为内部排序(Internal Sorting)外部排序(External Sorting)大类。 

    内部排序指的是在排序的整个过程中,记录全部存放在计算机的内存中,并且在内存中调整记录之间的相对位置,在此期间没有进行内、外存的数据交换。 

    外部排序指的是在排序过程中,记录的主要部分存放在外存中,借助于内存逐步调整记录之间的相对位置。在这个过程中,需要不断地在内、外存之间交换数据。 

   显然,内部排序适用于记录不多的文件。而对于一些较大的文件,由于内存容量的限制,不能一次全部装入内存进行排序,此时采用外部排序较为合适。但外部排序的速度比内部排序要慢的多。内部排序和外部排序各有许多不同的排序方法。本书只讨论内部排序的各种方法。 

  任何算法的实现都和算法所处理的数据元素的存储结构有关。线性表的两种典型存储结构是顺序表和链表。由于顺序表具有随机存取的特性,存取任意一个数据元素的时间复杂度为 O(1),而链表不具有随机存取特性,存取任意一个数据元素的时间复杂度为 O(n),所以,排序算法基本上是基于顺序表而设计的。 

  由于排序是以记录的某个数据项为关键码进行排序的,所以,为了讨论问题的方便,假设顺序表中只存放记录的关键码,并且关键码的数据类型是整型,也就是说,使用的顺序表是整型的顺序表 SeqList<int>,下面讨论各种排序方法简写为 SeqList。 

  排序有非递增有序和非递减排序排序两种。不失一般性,我们只讨论的所有排序算法都是按关键码非递减有序设计的。 

    1.2 简单排序方法 

  1.2.1直接插入排序

  插入排序(Insertion Sort)的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。插入排序在实现上,通常采用in-place排序即只需用到O(1)的额外空间的排序:意思是所有的操作都是”就地“操作,不允许进行移动,或者称作原位操作,即不允许使用临时变量。如通常交换两个数的值可以通过异或操作实现),因而在从后向前扫描过程中,需要反复把已排序元素逐步向后挪位,为最新元素提供插入空间。

  (1):算法描述

  一般来说,插入排序都采用in-place在数组上实现。具体算法描述如下:

  1.从第一个元素开始,该元素可以认为已经被排序
  2.取出下一个元素,在已经排序的元素序列中从后向前扫描
  3.如果该元素(已排序)大于新元素,将该元素移到下一位置
  4.重复步骤3,直到找到已排序的元素小于或者等于新元素的位置
  5.将新元素插入到该位置后
  6.重复步骤2~5

  (2):排序的过程如下:

 【C#数据结构系列】排序
 【C#数据结构系列】排序
  (3):c#实现
 1 public SeqList<int> InsertSort(SeqList<int> sqList)
 2         {
 3             for (int i = 1; i < sqList.GetLength(); i++)
 4             {
 5                 int tmp = sqList[i];
 6                 int j = i;
 7                 while (j > 0 && sqList[j - 1] > tmp)
 8                 {
 9                     sqList[j] = sqList[j - 1];
10                     j--;
11                 }
12                 sqList[j] = tmp;
13             }
14 
15             return sqList;
16         }
View Code

  直接插入排序算法的时间复杂度分为最好、最坏和随机三种情况:

  最差时间复杂度 О(n²)

  最优时间复杂度 О(n²)

  平均时间复杂度 О(n²)

   (1) 最好的情况是顺序表中的记录已全部排好序。这时外层循环的次数为n-1,内层循环的次数为 0。这样,外层循环中每次记录的比较次数为 1,所以直接插入排序算法在最好情况下的时间复杂度为 O(n)。 

  (2) 最坏情况是顺序表中记录是反序的。这时内层循环的循环系数每次均为 j。直接插入排序算法在最坏情况下的时间复杂度为O(n2)

  (3) 如果顺序表中的记录的排列是随机的,则记录的期望比较次数为n2/4。因此,直接插入排序算法在一般情况下的时间复杂度为O(n2)。 

   可以证明,顺序表中的记录越接近于有序,直接插入排序算法的时间效率越高,其时间效率在O(n)到O(n2)之间。直接插入排序算法的空间复杂度为 O(1)。因此,直接插入排序算法是一种稳定的排序算法。 

 

  1.2.2 冒泡排序

  冒泡排序(Bubble Sort,台湾译为:泡沫排序或气泡排序)是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。
  冒泡排序对n个项目需要O(n^2)的比较次数,且可以原地排序。尽管这个算法是最简单了解和实作的排序算法之一,但它对于少数元素之外的数列排序是很没有效率的。
冒泡排序是与插入排序拥有相等的执行时间,但是两种法在需要的交换次数却很大地不同。在最坏的情况,冒泡排序需要O(n^2)次交换,而插入排序只要最多O(n)交换。冒泡排序的实现(类似下面)通常会对已经排序好的数列拙劣地执行(O(n^{2})),而插入排序在这个例子只需要O(n)个运算。因此很多现代的算法教科书避免使用冒泡排序,而用插入排序取代之。冒泡排序如果能在内部循环第一次执行时,使用一个旗标来表示有无需要交换的可能,也有可能把最好的复杂度降低到O(n)。在这个情况,在已经排序好的数列就无交换的需要。若在每次走访数列时,把走访顺序和比较大小反过来,也可以稍微地改进效率。有时候称为往返排序,因为算法会从数列的一端到另一端之间穿梭往返。

  (1):算法描述
  1.比较相邻的元素。如果第一个比第二个大,就交换他们两个。
  2.对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。在这一点,最后的元素应该会是最大的数。
  3.针对所有的元素重复以上的步骤,除了最后一个。
  4.持续每次对越来越少的元素重复上面的步骤,直到没有任何一对数字需要比较。

  

  (2):排序的过程如下:

 【C#数据结构系列】排序
  
  (3):c#实现
  
 1 public SeqList<int> BubbleSort(SeqList<int> sqList)
 2         {
 3             for (int i = 0; i < sqList.GetLength(); i++)
 4             {
 5                 for (int j = sqList.GetLength() - 1; j > i; j--)
 6                 {
 7                     if (sqList[j] < sqList[j - 1])
 8                     {
 9                         //sqList[j] = sqList[j] ^ sqList[j - 1];
10                         //sqList[j - 1] = sqList[j] ^ sqList[j - 1];
11                         //sqList[j] = sqList[j] ^ sqList[j - 1];
12                         int temp = sqList[j];
13                         sqList[j] = sqList[j - 1];
14                         sqList[j - 1] = temp;
15                     }
16                 }
17             }
18 
19             return sqList;
20         }
View Code

  最差时间复杂度 【C#数据结构系列】排序

  最优时间复杂度 【C#数据结构系列】排序

  平均时间复杂度 【C#数据结构系列】排序

  冒泡排序算法的最好情况是记录已全部排好序,这时,循环 n-1 次,每次循环都因没有数据交换而退出。因此,冒泡排序算法在最好情况下的时间复杂度为O(n)。 

  冒泡排序算法的最坏情况是记录全部逆序存放 ,冒泡排序算法在最坏情况下的时间复杂度为O(n2)。

  冒泡排序算法只需要一个辅助空间用于交换记录,所以,冒泡排序算法是一稳定的排序方法。 

  

  1.2.3 简单选择排序

  选择排序(Selection sort)是一种简单直观的排序算法。它的工作原理如下。首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾。以此类推,直到所有元素均排序完毕。
  选择排序的主要优点与数据移动有关。如果某个元素位于正确的最终位置上,则它不会被移动。选择排序每次交换一对元素,它们当中至少有一个将被移到其最终位置上,因此对n个元素的表进行排序总共进行至多n-1次交换。在所有的完全依靠交换去移动元素的排序方法中,选择排序属于非常好的一种。

  (1):排序的过程如下:

相关文章: