當前位置：首頁 >

内部排序算法全面总结

發布時間：2024/1/1 46 豆豆

生活随笔收集整理的這篇文章主要介紹了内部排序算法全面总结小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

排序的概念

排序，就是重新排列表中的元素，使表中的元素按照關鍵字有序的過程。
我所了解的表多半是順序表，因為順序表實現較為簡單，但是鏈表結構同樣可以實現很多排序算法。
定義中的元素一般指什么元素呢？
一般可分為兩大類基本類型自定義類的類型

基本類型指的就是整型，浮點型，字符型這些屬于語言基本類型的東西，比如在js中基本類型就包括 string number bool object symbol，undefined，null
自定義類一般就是語言中封裝的結構體或者類，對象等，不同編程語言可能有些差別，C語言中就是struct結構體 js中就是包含相同子段的對象的集合。

上圖展示C語言中的結構體，一個Student結構體中包括了name,
age,score三個字段。

我們為什么需要對排序的元素做這樣的劃分呢？

排序的穩定性

回答上面的問題牽涉到排序算法的穩定性。首先給出排序算法穩定性的一個拗口的定義：

假設待排序表中有兩個元素Ri和Rj，其對應的關鍵字相同即keyi = keyj,且在排序前Ri在Rj之前，若使用某一算法排序后，Ri仍在Rj之前，則稱這個排序算法是穩定的，反之則不穩定。

注意，此時的排序算法是針對關鍵字key的。那么這段定義到底表述的是什么意思呢？我們可以先把目光集中到上面定義的Student結構體中。

假設我們現在有個關于Student的順序表，對于關鍵字age來說，順序表中的結構體是無序的，因為我們期待的是age從小到大排列，實際情況卻是從大到小。
那么如果一個排序算法要針對上述age字段進行排序，我們可以發現的一點是張三和李四的年齡是一樣的，并且張三在李四的前面，排序算法按照上述定義如果是穩定的那么排完序之后，王二到了第一位，因為他年齡最小，并且張三和李四的前后相對位置不能發生改變。
排序的穩定性有何意義？
它可以記錄數據排列之前的狀態，舉一個實際的例子，假設我們一張表，表中記錄了一個學校全部學生的高考成績，字段包括姓名，班級，分數。
一開始表中數據狀態是散亂的，首先我們按照成績進行從大到小排序，我們會得到一張新表，表中的記錄是按照成績的高低從大到小依次展示的。然后我們再按照班級來進行排序，那么結果會是怎么樣的呢？
如果我們使用的排序算法是穩定的話，表中的記錄會是這樣的：一班同學全體在表的開始，然后是二班，三班。。。
并且每班同學的成績是從高到低依次排列的
現在大家應該可以理解排序算法穩定性的重要性意義了。
我們回到最開始的問題，排序元素為什么要分為基礎數據和自定義類呢？
要知道基礎數據是長得一模一樣的，那么排序的穩定性就不需要關注了，可是自定義類就不一樣了，就向上面所舉的例子，因為一條記錄包含不同的字段，實際過程中不可能有兩條一模一樣的記錄。

排序的分類

內部排序

排序期間元素全部放在內存中的排序

外部排序

指排序期間元素無法全部同時存放在內存中，必須在排序的過程中根據要求不斷在內外存之間移動的排序。

主要內容

我們研究的排序算法主要是內部排序，內部排序包括插入排序，交換排序，選擇排序，歸并排序，基數排序等。下面分塊總結

排序總結

插入排序

插入排序包括三種排序方法直接插入排序，折半插入排序，希爾排序。

直接插入排序

思路：
（1）假設我們有一個序列List，它的前一小部分已經是有序的了，后面的部分還是無序的。
我們從無序的部分中拿出第一個元素 A ，將他與前面的有序部分的最后一個元素進行 S 比較，如果A比S大，那么不需要改變A的位置，插入結束。如果 A 比 S小，那么就需要將A與S交換位置，然后一直比較下去，直到找到第一個小于等于他的數字為止，交換結束，插入完畢。
（2）第二種思路，找到L(i)在L[0…n]中的插入位置k，將L[k…i-1]中的所有元素后移一個位置，將L(i)復制到前面已經排好的序列中去。

代碼解釋：首先我們定義了一個swap的方法，這個方法就是為了交換一個數組中指定位置的兩個數。內部排序算法多半就基于比較和交換的，所以我們在其他的排序算法中同樣會使用swap方法，到時候就不再贅述。
上面的直接排序算法是根據思路1寫出，思路2的代碼本人認為不夠簡潔以及容易理解，在此不再贅述。

空間復雜度：O(1)
時間復雜度：O(n2)
排序穩定性：為穩定的排序算法，因為只有插入項小于比較項的時候才會發生交換。
適用性：適用于順序表和鏈表。

折半插入排序

折半插入排序就是在尋找插入位置的時候不是一個個向前比較，而是利用二分法迅速的找到我們需要插入的位置，但是我們需要向后移動元素的個數并沒有減少，所以折半插入排序的時間復雜度依然是O(n2)

總之折半直接插入算法，就是直接插入算法的基礎上加入了二分查找法。

希爾排序

直接插入算法適用于基本有序的排序表和數據量不大的排序表。也就是說數組越有序，那么希爾排序的效率越高，因為他所需要移動的元素越少。
又有一位比較牛逼的科學家 Donald Shell提出了一個觀點，要是可以把待排序表分割成若干組長度較小的序表，然后對各個子表進行直接插入排序，當整個表中的元素已呈基本有序，再對全體記錄進行一次直接插入排序。
通俗點說我們可以理解為表中各個小的地方都有序了，那么整體自然更加的趨向有序。
那么具體操作過程是什么？我們怎么去選擇子序列？
希爾提出，假設我們的數組長度是n 我們第一次取d₁ = [n / 2]
所有距離為d₁倍數的元素被分在了一組。
如果我們的數組長度為10，{0，1，2，4，5，6，7，8，9}，那么第一次取d₁ = 5,則數組中的分組為
【0 5】【1 6】【2 7】【3 8】【4 9】
我們先在這些個子序列中利用直接插入排序把他弄有序，然后縮短步長，取d₂ = [d₁ / 2] = 3(注意這里是向上取整)
那么此時的分組就是
【0 3 6 9】【1 4 7】【2 5 8】
注意d等于幾我們就分成了幾組
最后一組d一定是1，因為我們需要對整個數組進行插入排序

代碼解析：希爾排序的代碼并不是那么好理解，首先我們取步長
d為 length / 2 說明我們要分d組，所以第一層for循環表示的是，每次循環表示一個分組。內層循環表示遍歷這個組的所有數，一個某個數滿足插入的條件進行交換。循環結束后改變步長為 d / 2；d最小為1，比1小就跳出循環。
穩定性：希爾排序不是穩定的排序算法

插入排序的一些注意點

對n個不同的數據元素進行直接插入排序，最多需要的比較次數為 n（n - 1）/ 2，最小的比較次數為 n - 1
待排序的元素序列基本有序的前提下，直接插入排序的時間復雜度接近O（n），且空間復雜度極低
折半插入排序和直接插入排序的區別僅僅在于元素之間的比較次數

交換排序

概念

王道教材上交換排序是指序列中兩個元素關鍵字的比較結果來對換這兩個記錄在序列中的位置。主要排序算法是冒泡排序和快速排序。其實我覺得這個分類并不夠準確，因為插入排序也可以實現為交換排序，就跟我上面思路一實現的代碼一模一樣。

冒泡排序

冒泡排序很簡單，但是實際做項目里面也很少會用得到。
思路：從后往前（或者從前往后）兩兩比較相鄰元素的值，若為逆序則交換他們，直到序列比較完。第一趟冒泡的結果總是將最小的元素交換到待排序列的第一個位置（或者是把最大的元素交換到待排序列的最后一個位置）。
代碼實現：
1.我見過最簡單的一種冒泡，對于長度為n的序列來說，需要經過n -1次冒泡，每次固定住一個元素的位置。

這種算法有個明顯的缺陷，那就是比較次數，就算是序列本身已經是有序的了，還是需要比較，這就說明比較次數是和數據狀態無關的。
2.第二種代碼對上面代碼進行了改進，如果在某躺冒泡中，我們發現元素并沒有進行交換了，那么說明此時序列已經排完了，可以跳出循環。

一個簡單的實驗，用一個count變量記錄第一種冒泡和第二種冒泡對于一個正序序列（長度為7）進行比較的次數，我們發現第一種count等于21，第二種為6.
時間復雜度：最好情況O(n),最壞情況O(n2)
空間復雜度：O(1)
比較次數：最好情況 n -1,最壞情況 n(n -1)/2
穩定性：穩定的排序算法。

快速排序

快速排序是所有內部排序算法中性能最優的排序算法，并且也是最不容易理解的一種排序算法。
思路：
快排是我們接觸的第一種基于分治法的算法，他將一個大問題劃分成了兩個規模更小的小問題。我們首先從排序表中找到一個基準元素（pivot）通過一趟排序將待排序表分為獨立的兩部分，前半部分小于pivot，后半部分大于等于pivot。然后遞歸這兩個子部分，直到每部分只有一個元素或者空為止。
現在出現了一個主要問題，如何使得待排序表能夠被劃分成兩部分，其中一部分小于pivot，另一部分大于等于pivot？這個過程我們把它稱為partition。

上述圖的過程很清晰的展現了快速排序一個partition的過程。
代碼實現：

快速排序的性能分析較為復雜，由于快速排序是遞歸的（實際上所有的遞歸算法都可以變化成非遞歸），需要借助一個遞歸工作棧來保存每層遞歸調用的必要信息，其容量應與遞歸調用的最大深度一致。最好情況下為O(log₂n),最壞情況下為O(n)
時間復雜度：最佳情況為O(n * logN),提升快排算法的方法，pivot盡量選擇為中間大小的數字，使得能夠平分兩個子過程。
穩定性：快速排序算法是不穩定的。

快速排序算法的partition思想特別重要，它可以在排序的同時，準確定位到排序表中特定位置的元素，劃分算法一定要想到快速排序的思想，下面舉一個題目的例子。
找出一個無序表中第k小的元素

選擇排序

基本思想：每一趟（第i躺），在后面n - i + 1個待排序元素中選取關鍵字最小的元素，作為有序子序列的第i個元素，直到n - 1躺做完，待排序元素只剩一個，排序結束。
選擇排序和冒泡排序的差不多，都是在，每一趟中網有序子序列中添加一個元素。

簡單選擇排序

思路：假設我們有排序表L[1…n]，第 i 躺排序從L[i…n]中選出一個最小的，將其與第 i 位交換，每一趟都可以確定一個元素的最終位置，并且保證已排的子序列有序。
代碼實現：

時間效率：我們可以發現，簡單選擇排序的比較次數與序列的初始狀態無關，始終為n (n - 1) / 2
空間效率：O(1)
穩定性：不穩定

堆排序

堆排序可以說是和快速排序同樣重要的一種排序。
堆排序將一個數組看成一棵完全二叉樹（關于完全二叉樹的定義請自行百度，篇幅有限，不再贅述）。第i個結點的左孩子的序號是2i + 1,
右孩子的序號為2i + 2,他的雙親結點的序號為（i - 1）/ 2.
一個特殊的結點為數組中序號為0的結點，它的雙親結點還是自己，所以能夠和其他結點之間進行區分。

知道了堆以后，還需要明白兩個概念:大根堆和小根堆
大根堆：所有子樹的根結點都是最大的
L[i] >= L[2i + 1] && L[i] >= L[2i + 2]
小根堆：所有子樹的根結點都是最小的
L[i] <= L[2i + 1] && L[i] <= L[2i + 2]

上述圖展現了一個大根堆，所有樹的根結點必然最大，并且左右孩子結點的大小不定。
那么知道啥叫大根堆以后，我們又如何來根據這一特殊的結構來進行排序呢？
首先我們拿到一個順序表，將其轉化成一個大根堆，那么我們可以發現大根堆的根結點一定是最大的元素（這點極其重要！！！）
然后我們將大根堆的堆頂（就是根結點）和最后一個元素交換，將這個位置固定。此時，我們看上圖，假設我們將100和7交換位置，那么此時的堆就不再是大根堆了，需要將其再次轉換成大根堆，但是注意的是100的位置我們就不需要去動了。
也就是說，堆排序一趟排序確定了當前堆中最大的元素，并將其放到堆的最后一個位置，n - 1躺過后必然已經稱為一個有序的數組。
現在有兩個問題：

我們如何將一個數組初始化為一個大根堆？

當大根堆的堆頂元素發生改變后我們又怎么將其重新轉換成大根堆？

上述代碼中heapSort中使用了一個for循環，這個for循環的作用是，將第i位元素添加到堆中，并且保證堆是一個大根堆。
代碼的靈魂在于heapHelper方法，當新加入的元素比自己的雙親結點大的時候，將其互換，一直持續到，自己的某個雙親結點不必自己大了，就跳出循環。
這里有個特殊的點是0，當index = 0的時候，我們發現（index - 1）/2
依舊是0，所以二者相等，跳出循環。

好了，至此，我們已經掌握了一個數組轉化成大根堆的方法了。
接下來的問題就是將堆頂元素與堆中最后一個元素交換以后，怎么將它再次的變成一個大根堆。

這里我們著重論述一下heapify的過程，heaplify有三個參數，第一個是待排序的數組，第二個是開始大根堆化的根結點index（一般都是0），第三個是標識當前堆大小的heapSize。
首先獲取當前結點的左孩子結點left（通過對應的序號關系就可以得到），當left并未超過當前堆長度的時候，我們開始循環。
思路是找到index結點的左右孩子中較大的那個，給largest賦值的這句長代碼就是完成了這個任務。
第二步比較 index根結點與左右孩子結點中較大值之間的大小并重新給largest賦值
第三步做判斷如果largest就等于index根結點，說明 index根結點本身就是最大的，不需要往下交換了。否則，就需要和較大結點之間做交換，并且給index重新賦值，進行下一次循環。

上面的代碼我覺得是較容易理解的版本了，邏輯和變量語義化來看都非常好。

關于堆排我們已經完成了最主要的兩個任務了，下面是堆排序的完整代碼。

值得注意的是，當我們每次將根結點（最大值）swap到最后的時候，需要通過–heapSize使得堆的長度減1來固定這個最大值。

空間效率:O(1)
時間效率：O(n * logn)
穩定性：不穩定的排序算法

堆排序的一些常考的注意點

堆排建堆的時間效率不會超過4n（雖然我也不知道咋算出來的）。
在尾部插入一個元素或者從堆頂彈出一個元素都是 logN的時間效率。
當我們需要在大量數據中找出k個最大或者最小的元素時都采用堆排序。

歸并排序與基數排序

歸并排序的思想獨樹一幟，它是將長度為n的待排序列表看成 n 個小組，兩兩和并使其有序，這樣我們就獲得了【n / 2】(向上取整)個有序的小組，這個過程被稱為一趟2路歸并，直到合并成長度為n的有序序列。

空間效率：需要空間為n的輔助數組O(n)
時間效率：O(n * logN)
穩定性：穩定的排序算法

基數排序

基數排序較為奇特，一般是基于鏈表來實現的一種排序，它不基于移動和比較，而是將單個關鍵字轉換成多個關鍵字進行排序的方法。
比如對于一群小于1000的數字來說，每個數字可以看成有個，十，百三個關鍵字組成。于是我們可以把數字一個關鍵字，拆分成個，十，百三個關鍵字。
基數排序包含兩種方法，第一種是最高位優先（MSD）法，按關鍵字位權重遞減一次逐層劃分成若干更小的子序列，最后將子序列依次連接。第二種最低位優先法，與上個方法是相反的過程。
那么基數排序具體如何操作呢？下面以最低位優先法舉例。
First，先定一個基數r，這個基數r代表了拆分出來的關鍵字集合（如上述的個，十，百位）中可能取值的個數。比如個，十，百，他們的取值可能都是0 ~ 9，所以取值個數為10，那么就把r定為十。
Second，定義r個隊列，并將他們置空。
Then，進行分配和收集。
啥叫分配和收集？
我們有多少個拆分出來的關鍵字，就需要多少回分配和收集。
一次分配的過程如下：一一掃描線性表中的結點，發現了關鍵字與隊列對應的取值相等，那么就將該結點添加進這個隊列。比如我們首先開始個位數關鍵字的分配，總共r（r = 10）個隊列分別對應0 ~ 9，我們掃描鏈表中的結點的時候，發現個位數等于5那么就加到對應5的隊列中去。
一次收集的過程如下：將剛剛被分配完畢的隊列依次首尾相連獲得一個新的隊列。
一次收集和分配也被稱為一趟排序的過程。

基數排序剛剛接觸可能覺得有點奇怪，但是把上面的圖看懂了以后應該就能大致理解，基數排序到底在干什么了。
基數排序代碼實現一般不會考察，我們只需要它的過程就可以。
空間復雜度:O?,r個隊列
時間復雜度：d躺分配收集O(d),一次分配是O(n),一次收集是O?
所以時間復雜度是O(d(n + r))
穩定性：因為隊列先入先出的特點，是穩定的排序算法。

總結

八大內部排序算法內容還是不少的，在記憶時，應著重于原理，時間復雜度，空間復雜度，算法穩定性，適用場景幾個方面進行記憶。
下面進行一個總結。

冒泡排序算法總結

原理：兩兩比較相鄰的記錄，向左或者向右冒泡，一趟排序可以確定一個元素的最終位置。
時間效率：冒泡排序的時間效率是和待排序列的初始狀態有關的。
最好的情況下，初始列表有序：
比較次數為n - 1次，移動次數為0次，時間復雜度為O(n)
最壞情況下，初始列表無序：
比較次數：第i趟排序需要比較n - i次 i從1 到n - 1求和為 n(n - 1) / 2
移動次數：3n(n - 1)/2 移動次數是比較次數的三倍
時間復雜度：O(n2)
空間效率：O(1)
算法穩定性：因為每次比較，如果兩個元素相等，那么就不會發生交換，所以是穩定的排序算法。
適用場景：冒泡排序是和待排序列的初始條件有關的，所以當待排序列幾乎是有序的，那么冒泡排序的時間是線性的，可以使用。

快速排序算法總結

原理：快排的基本思想是基于分治的，從待排序列中挑出一個基準，將整個序列分成小于基準的，大于等于基準的兩部分。一趟排序可以確定一個元素的最終位置。快速排序對于劃分數組來說有奇效，比如我要找一個數組中第k大的數字，相當于就把數組劃分成了比k小的部分和比k大的部分。再比如把數組較小的一半和較大的一半分開等等。
時間效率：快排的時間效率是和partition分不開的，究其根本就是pivot的選定問題，如果partition能使得劃分出的兩部分均一，那么時間效率就會較高。
最壞情況：pivot選的太大或者太小此時的時間復雜度為O(n2)
最好情況：pivot選的正中間，此時的時間復雜度為O(n * log n)
空間效率：快排的空間效率同樣和pivot的選定有關
最壞情況：調用棧的深度為O(n)
最好情況：調用棧的深度為O(n * log n)
算法穩定性：不穩定
適用場景：當n較大，關鍵字趨近于隨機分布，不要求穩定性的時候，那么用的一定是快排，因為快排被認為是效率最高的內部排序算法。

插入排序算法總結

原理：子序列已經排好，插入排序就是把無序序列中的元素，往前面排好的子序列里面插入。直接插入與折半插入的區別在于定位插入的位置，也就是比較元素的次數不同。希爾排序規定了步長，在對應步長的子序列中應用直接插入排序，并一步步縮短步長直至為1.

時間效率：關于直接插入排序的比較次數和移動次數我是存在疑慮的，在嚴蔚敏的教材里把哨兵的比較也算了進去，至于什么是哨兵其實我也不太理解。但是我認為直接插入排序的時間效率是和冒泡的情況類似的。
最好的情況下，初始列表有序：
比較次數為n - 1次，移動次數為0次，時間復雜度為O(n)
最壞情況下，初始列表無序：
比較次數：第i趟排序需要比較n - i次 i從1 到n - 1求和為 n(n - 1) / 2
移動次數：3n(n - 1)/2 移動次數是比較次數的三倍
時間復雜度：O(n2)
空間復雜度：O(1)

算法的穩定性：穩定的

適用場景：n較小或者待排數列基本有序，仔細分析算法的化，直接插入排序肯定是比冒泡排序好的，所以遇到兩個都可以用的時候，要選直接排序。此外直接排序可以用鏈表結構實現，當所含記錄數據量龐大，移動記錄耗費大量時間，采用鏈表作為存儲結構。

簡單選擇排序算法總結

原理：第i趟在后面n - i + 1個待排序元素中選取關鍵字最小的元素，作為有序子序列的第i個元素，直到n - 1趟完成。簡單選擇排序同樣也是每一趟排序就能確定一個元素的最終位置。

時間效率：比較次數是一定的，與數據原始狀態無關，為n（n - 1）/2.元素移動次數不定。最好情況下，待排序列有序，無序移動。
最壞情況下，待排序列逆序，移動次數3* （n - 1），所以時間復雜度始終是O（n2）

穩定性：因為每次找到最小值以后需要交換位置，可能會把數字相同在前的換到后面去。，所以是不穩定的。

適用場景：簡單排序移動元素的次數少，所以當n比較小的時候，元素的信息量較大，那么就可以使用簡單選擇排序。

堆排序算法總結

原理：堆排序是把數組按照下標的關系視作了一棵完全二叉樹，我們排序所用到的堆是大根堆。使用堆排序對數組進行排序的時候首先將數組轉化成大根堆，從第一個非葉子節點開始篩選，直至變成大根堆。獲得大根堆以后，每次將堆頂的元素與最后的元素交換位置，重新的構造大根堆。堆排序每次可以確定最后一位元素的位置。

時間效率：建堆的時間為O（n），添加新元素，彈出堆頂，調整大根堆的時間都是O（logn），最好，最壞和平均情況都是O（N * logN）

空間效率：O（1）

穩定性：不穩定的排序

適用場景：通常，取一大堆數據中k個最大或最小元素時都優先采用堆排序

歸并排序算法總結

原理：我們說的歸并排序一般都是2路歸并排序，歸并排序一般是將兩個有序表歸并為一個有序表，所有用歸并排序的思想可以解決兩個兩個有序表合并的問題。歸并排序每個數都可以找到比自己大的數，所以還可以用來解決小和，逆序對問題。

時間效率：每次歸并的時間復雜度是O(n),與原始狀態無關，需要進行【logn】次歸并（向上取整），所以時間復雜度就是O(n * logN)

空間效率：O（N）

穩定性：當左右兩邊元素相等的時候，右邊的先入輔助表，所以不改變元素之間的相對位置，是穩定的。

適用場景：當n較大的時候，需要使用O（n * logN）排序算法，如果還要求穩定性，這個時候可以使用歸并算法。

基數算法總結

基數算法上面的總結的很到位了，這里做個補充，當n很大的時候，關鍵字位數較燒且可以分解的時候，我們可以采用基數排序。如按照出生日期的月，日來給中國人排序。

總結

以上是生活随笔為你收集整理的内部排序算法全面总结的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

算法

上一篇：【EMC电磁兼容】01.09——EMC中
下一篇： AD/DA转换器