當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据结构与算法 Big O 备忘录与现实

發布時間：2024/9/5 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了数据结构与算法 Big O 备忘录与现实小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

不論今天的計算機技術變化，新技術的出現，所有都是來自數據結構與算法基礎。我們需要溫故而知新。

?????? 算法、架構、策略、機器學習之間的關系。在過往和技術人員交流時，很多人對算法和架構之間的關系感到不可理解，算法是軟的，架構是硬的，難道算法和架構還有什么關系不成？其實不然，算法和架構的關系非常緊密。在互聯網時代，我們需要用算法處理的數據規模越來越大，要求的處理時間越來越短，單一計算機的處理能力是不可能滿足需求的。而架構技術的發展，帶來了很多不同特點的分布式計算平臺。算法為了能夠應用到這些分布式計算平臺上，往往需要進化，例如：并行計算要求算法可以拆分為可并行計算的幾個獨立單位，但很多算法不具備這種可拆分特性，使得不能簡單通過分布式計算來提高效率。這時候，為了實現分布式化的計算效果，需要將算法進行等效改寫，使得其具有獨立拆分性。另一方面，算法的發展，也反過來會對計算架構提出新的要求。

?????? 對算法和策略的關系亦是，不過這兩個概念并不像算法和架構那樣好解釋。策略是解決具體問題的手段，而算法是解決一類問題的方法。解決一個具體問題，可能需要將問題分解為一個或者多個算法，一起作用來解決，也可能不需要算法。例如，對于個性化新聞，我們可能有一個策略是：重大新聞需要及時展現給用戶；而實現的具體算法可能只包括“重大新聞挖掘算法”等。

????? 機器學習是一類算法的統稱，在一定的數據集合上，利用機器學習的算法，自動得到規律，來進行預測，機器學習領域常見的問題包括分類問題、回歸問題等。而預測，尤其是對用戶的偏好進行預測是推薦領域的核心問題之一，機器學習算法在解決此類問題上會發生很大的作用。

沒有最好的算法，只有合適的算法。推薦算法和產品需求、應用場景、數據密切相關，不要相信有什么包打天下的算法；
數據是基礎：數據充足而且質量高，簡單算法也可以有不錯的效果；反之，則多好的算法也不可能有好的效果；
木桶效應：算法策略要和用戶需求、功能展現密切配合；（注：木桶原理又稱短板理論，其核心內容為“一只木桶盛水的多少，并不取決于桶壁上最高的那塊木塊，而恰恰取決于桶壁上最短的那塊。”）
一般而言，推薦算法都需要考慮是否能處理大數據，是否能大規模并行化。

正文

一、數據結構基礎

數組

定義

按順序連續存儲數據元素，通常索引從0開始
以集合論中的元組為基礎
數組是最古老，最常用的數據結構

知識要點

索引最優；不利于查找、插入和刪除（除非在數組最末進行）
最基礎的是線性數組或一維數組
數組長度固定，意味著聲明數組時應指明長度
動態數組與一維數組類似，但為額外添加的元素預留了空間
如果動態數組已滿，則把每一元素復制到更大的數組中
類似網格或嵌套數組，二維數組有 x 和 y 索引

時間復雜度

O(1)索引：一維數組：O(1)，動態數組：O(1)
O(n)查找：一維數組：O(n)，動態數組：O(n)
O(log n)最優查找：一維數組：O(log n)，動態數組：O(log n)
O(n)插入：一維數組：n/a，動態數組：O(n)

鏈表

定義

結點存儲數據，并指向下一結點
最基礎的結點包含一個數據和一個指針（指向另一結點）
- 鏈表靠結點中指向下一結點的指針連接成鏈

要點

為優化插入和刪除而設計，但不利于索引和查找
雙向鏈表包含指向前一結點的指針
循環鏈表是一種終端結點指針域指向頭結點的簡單鏈表
堆棧通常由鏈表實現，不過也可以利用數組實現
堆棧是“后進先出”（LIFO）的數據結構
- 由鏈表實現時，只有頭結點處可以進行插入或刪除操作
同樣地，隊列也可以通過鏈表或數組實現
隊列是“先進先出”（FIFO）的數據結構
- 由雙向鏈表實現時，只能在頭部刪除，在末端插入

時間復雜度

O(n)索引：鏈表：O(n)
O(n)查找：鏈表：O(n)
Linked Lists: O(n)最優查找：鏈表：O(n)
O(1)插入：鏈表：O(1)

哈希表或哈希圖

定義

通過鍵值對進行儲存
哈希函數接受一個關鍵字，并返回該關鍵字唯一對應的輸出值
這一過程稱為散列（hashing），是輸入與輸出一一對應的概念
- 哈希函數為該數據返回在內存中唯一的存儲地址

要點

為查找、插入和刪除而設計
哈希沖突是指哈希函數對兩個不同的數據項產生了相同的輸出值
所有的哈希函數都存在這個問題
- 用一個非常大的哈希表，可以有效緩解這一問題
- 哈希表對于關聯數組和數據庫檢索十分重要

時間復雜度

O(1)索引：哈希表：O(1)
O(1)查找：哈希表：O(1)
O(1)插入：哈希表：O(1)

二叉樹

定義

一種樹形的數據結構，每一結點最多有兩個子樹
- 子結點又分為左子結點和右子結點

要點

為優化查找和排序而設計
退化樹是一種不平衡的樹，如果完全只有一邊，其本質就是一個鏈表
相比于其他數據結構，二叉樹較為容易實現
可用于實現二叉查找樹
- 二叉樹利用可比較的鍵值來確定子結點的方向
- 左子樹有比雙親結點更小的鍵值
- 右子樹有比雙親結點更大的鍵值
- 重復的結點可省略
- 由于上述原因，二叉查找樹通常被用作一種數據結構，而不是二叉樹

時間復雜度

索引：二叉查找樹：O(log n)
查找：二叉查找樹：O(log n)
插入：二叉查找樹：O(log n)

二、搜索基礎

廣度優先搜索

定義

一種在樹（或圖）中進行搜索的算法，從根結點開始，優先按照樹的層次進行搜索
- 搜索同一層中的各結點，通常從左往右進行
- 進行搜索時，同時追蹤當前層中結點的子結點
- 當前一層搜索完畢后，轉入遍歷下一層中最左邊的結點
- 最下層最右端是最末結點（即該結點深度最大，且在當前層次的最右端）

要點

當樹的寬度大于深度時，該搜索算法較優
進行樹的遍歷時，使用隊列存儲樹的信息
- 原因是：使用隊列比深度優先搜索更為內存密集
- 由于需要存儲指針，隊列需要占用更多內存

時間復雜度

O(|E| + |V|)查找：廣度優先搜索：O(|E| + |V|)
E 是邊的數目
V 是頂點的數目

深度優先搜索

定義

一種在樹（或圖）中進行搜索的算法，從根結點開始，優先按照樹的深度進行搜索
- 從左邊開始一直往下遍歷樹的結點，直到不能繼續這一操作
- 一旦到達某一分支的最末端，將返回上一結點并遍歷該分支的右子結點，如果可以將從左往右遍歷子結點
- 當前這一分支搜索完畢后，轉入根節點的右子結點，然后不斷遍歷左子節點，直到到達最底端
- 最右的結點是最末結點（即所有祖先中最右的結點）

要點

當樹的深度大于寬度時，該搜索算法較優
利用堆棧將結點壓棧
- 因為堆棧是“后進先出”的數據結構，所以無需跟蹤結點的指針。與廣度優先搜索相比，它對內存的要求不高。
- 一旦不能向左繼續遍歷，則對棧進行操作

時間復雜度

O(|E| + |V|)查找：深度優先搜索：O(|E| + |V|)
E 是邊的數目
V 是結點的數目

廣度優先搜索 VS. 深度優先搜索

這一問題最簡單的回答就是，選取何種算法取決于樹的大小和形態
- 就寬度而言，較淺的樹適用廣度優先搜索
- 就深度而言，較窄的樹適用深度優先搜索

細微的區別

由于廣度優先搜索（BFS）使用隊列來存儲結點的信息和它的子結點，所以需要用到的內存可能超過當前計算機可提供的內存（不過其實你不必擔心這一點）
如果要在某一深度很大的樹中使用深度優先搜索（DFS），其實在搜索中大可不必走完全部深度。可在 xkcd 上查看更多相關信息。
廣度優先搜索趨于一種循環算法。
深度優先搜索趨于一種遞歸算法

三、高效排序基礎

歸并排序

定義

一種基于比較的排序算法
- 將整個數據集劃分成至多有兩個數的分組
- 依次比較每個數字，將最小的數移動到每對數的左邊
- 一旦所有的數對都完成排序，則開始比較最左兩個數對中的最左元素，形成一個含有四個數的有序集合，其中最小數在最左邊，最大數在最右邊
- 重復上述過程，直到歸并成只有一個數據集

要點

這是最基礎的排序算法之一
必須理解：首先將所有數據劃分成盡可能小的集合，再作比較

時間復雜度

O(n)最好的情況：歸并排序：O(n)
平均情況：歸并排序：O(n log n)
最壞的情況：歸并排序：O(n log n)

快速排序

定義

一種基于比較的排序算法
- 通過選取平均數將整個數據集劃分成兩部分，并把所有小于平均數的元素移動到平均數左邊
- 在左半部分重復上述操作，直到左邊部分的排序完成后，對右邊部分執行相同的操作
計算機體系結構支持快速排序過程

要點

盡管快速排序與許多其他排序算法有相同的時間復雜度（有時會更差），但通常比其他排序算法執行得更快，例如歸并排序。
必須理解：不斷通過平均數將數據集對半劃分，直到所有的數據都完成排序

時間復雜度

O(n)最好的情況：歸并排序：O(n)
O(n log n)平均情況：歸并排序：O(n log n)
最壞的情況：歸并排序：O(n2)

冒泡排序

定義

一種基于比較的排序算法
- 從左往右重復對數字進行兩兩比較，把較小的數移到左邊
- 重復上述步驟，直到不再把元素左移

要點

盡管這一算法很容易實現，卻是這三種排序方法中效率最低的
必須理解：每次向右移動一位，比較兩個元素，并把較小的數左移

時間復雜度

O(n)最好的情況：歸并排序：O(n)
O(n2)平均情況：歸并排序： O(n2)
O(n2)最壞的情況：歸并排序： O(n2)

歸并排序 VS. 快速排序

在實踐中，快速排序執行速率更快
歸并排序首先將集合劃分成最小的分組，在對分組進行排序的同時，遞增地對分組進行合并
快速排序不斷地通過平均數劃分集合，直到集合遞歸地有序

四、算法類型基礎

遞歸算法

定義

在定義過程中調用其本身的算法
- 遞歸事件：用于觸發遞歸的條件語句
- 基本事件：用于結束遞歸的條件語句

要點

堆棧級過深和棧溢出
- 如果在遞歸算法中見到上述兩種情況中的任一個，那就糟糕了
- 那就意味著因為算法錯誤，或者問題規模太過龐大導致問題解決前 RAM 已耗盡，從而基本事件從未被觸發
- 必須理解：不論基本事件是否被觸發，它在遞歸中都不可或缺
- 通常用于深度優先搜索

迭代算法

定義

一種被重復調用有限次數的算法，每次調用都是一次迭代
- 通常用于數據集中遞增移動

要點

通常迭代的形式為循環、for、while和until語句
把迭代看作是在集合中依次遍歷每個元素
通常用于數組的遍歷

遞歸 VS. 迭代

由于遞歸和迭代可以相互實現，兩者之間的區別很難清晰地界定。但必須知道：
- 通常遞歸的表意性更強，更易于實現
- 迭代占用的內存更少
(i.e. Haskell)函數式語言趨向于使用遞歸（如 Haskell 語言）
命令式語言趨向于使用迭代（如 Ruby 語言）
點擊 Stack Overflow post 了解更多詳情

遍歷數組的偽代碼（這就是為什么使用迭代的原因）

Recursion | Iteration

----------------------------------|----------------------------------

recursive method (array, n) | iterative method (array)

if array[n] is not nil | for n from 0 to size of array

print array[n] | print(array[n])

recursive method(array, n+1) |

else |

exit loop

貪婪算法

定義

一種算法，在執行的同時只選擇滿足某一條件的信息
通常包含5個部分，摘自維基百科：
- 候選集，從該集合中可得出解決方案
- 選擇函數，該函數選取要加入解決方案中的最優候選項
- 可行性函數，該函數用于決策某一候選項是否有助于解決方案
- 目標函數，該函數為解決方案或部分解賦值
- 解決方案函數，該函數將指明完整的解決方案

要點

用于找到預定問題的最優解
通常用于只有少部分元素能滿足預期結果的數據集合
通常貪婪算法可幫助一個算法降低時間復雜度

偽代碼：用貪婪算法找到數組中任意兩個數字間的最大差值

greedy algorithm (array)

var largest difference = 0

var new difference = find next difference (array[n], array[n+1])

largest difference = new difference if new difference is > largest difference

repeat above two steps until all differences have been found

return largest difference

這一算法無需比較所有數字兩兩之間的差值，省略了一次完整迭代。

以下是Big O 核對表

Legend

Excellent

Good

Fair

Bad

Horrible

Data Structure Operations

Data Structure	Time Complexity	?	?	?	?	?	?	?	Space Complexity
?	Average	?	?	?	Worst	?	?	?	Worst
?	Access	Search	Insertion	Deletion	Access	Search	Insertion	Deletion	?
Array	O(1)	O(n)	O(n)	O(n)	O(1)	O(n)	O(n)	O(n)	O(n)
Stack	O(n)	O(n)	O(1)	O(1)	O(n)	O(n)	O(1)	O(1)	O(n)
Singly-Linked List	O(n)	O(n)	O(1)	O(1)	O(n)	O(n)	O(1)	O(1)	O(n)
Doubly-Linked List	O(n)	O(n)	O(1)	O(1)	O(n)	O(n)	O(1)	O(1)	O(n)
Skip List	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(n)	O(n)	O(n)	O(n)	O(n log(n))
Hash Table	-	O(1)	O(1)	O(1)	-	O(n)	O(n)	O(n)	O(n)
Binary Search Tree	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(n)	O(n)	O(n)	O(n)	O(n)
Cartesian Tree	-	O(log(n))	O(log(n))	O(log(n))	-	O(n)	O(n)	O(n)	O(n)
B-Tree	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(n)
Red-Black Tree	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(n)
Splay Tree	-	O(log(n))	O(log(n))	O(log(n))	-	O(log(n))	O(log(n))	O(log(n))	O(n)
AVL Tree	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(n)

Array Sorting Algorithms

Algorithm	Time Complexity	?	?	Space Complexity
?	Best	Average	Worst	Worst
Quicksort	O(n log(n))	O(n log(n))	O(n^2)	O(log(n))
Mergesort	O(n log(n))	O(n log(n))	O(n log(n))	O(n)
Timsort	O(n)	O(n log(n))	O(n log(n))	O(n)
Heapsort	O(n log(n))	O(n log(n))	O(n log(n))	O(1)
Bubble Sort	O(n)	O(n^2)	O(n^2)	O(1)
Insertion Sort	O(n)	O(n^2)	O(n^2)	O(1)
Selection Sort	O(n^2)	O(n^2)	O(n^2)	O(1)
Shell Sort	O(n)	O((nlog(n))^2)	O((nlog(n))^2)	O(1)
Bucket Sort	O(n+k)	O(n+k)	O(n^2)	O(n)
Radix Sort	O(nk)	O(nk)	O(nk)	O(n+k)

Graph Operations

Node / Edge Management	Storage	Add Vertex	Add Edge	Remove Vertex	Remove Edge	Query
Adjacency list	O(\|V\|+\|E\|)	O(1)	O(1)	O(\|V\| + \|E\|)	O(\|E\|)	O(\|V\|)
Incidence list	O(\|V\|+\|E\|)	O(1)	O(1)	O(\|E\|)	O(\|E\|)	O(\|E\|)
Adjacency matrix	O(\|V\|^2)	O(\|V\|^2)	O(1)	O(\|V\|^2)	O(1)	O(1)
Incidence matrix	O(\|V\| ? \|E\|)	O(\|V\| ? \|E\|)	O(\|V\| ? \|E\|)	O(\|V\| ? \|E\|)	O(\|V\| ? \|E\|)	O(\|E\|)

Heap Operations

Type	Time Complexity	?	?	?	?	?	?
?	Heapify	Find Max	Extract Max	Increase Key	Insert	Delete	Merge
Linked List (sorted)	-	O(1)	O(1)	O(n)	O(n)	O(1)	O(m+n)
Linked List (unsorted)	-	O(n)	O(n)	O(1)	O(1)	O(1)	O(1)
Binary Heap	O(n)	O(1)	O(log(n))	O(log(n))	O(log(n))	O(log(n))	O(m+n)
Binomial Heap	-	O(1)	O(log(n))	O(log(n))	O(1)	O(log(n))	O(log(n))
Fibonacci Heap	-	O(1)	O(log(n))	O(1)	O(1)	O(log(n))	O(1)

Big-O Complexity Chart

計算機科學中最重要的32個算法

A* 搜索算法——圖形搜索算法，從給定起點到給定終點計算出路徑。其中使用了一種啟發式的估算，為每個節點估算通過該節點的最佳路徑，并以之為各個地點排定次序。算法以得到的次序訪問這些節點。因此，A*搜索算法是最佳優先搜索的范例。

集束搜索（又名定向搜索，Beam Search）——最佳優先搜索算法的優化。使用啟發式函數評估它檢查的每個節點的能力。不過，集束搜索只能在每個深度中發現最前面的m個最符合條件的節點，m是固定數字——集束的寬度。

二分查找（Binary Search）——在線性數組中找特定值的算法，每個步驟去掉一半不符合要求的數據。

分支界定算法（Branch and Bound）——在多種最優化問題中尋找特定最優化解決方案的算法，特別是針對離散、組合的最優化。

Buchberger算法——一種數學算法，可將其視為針對單變量最大公約數求解的歐幾里得算法和線性系統中高斯消元法的泛化。

數據壓縮——采取特定編碼方案，使用更少的字節數（或是其他信息承載單元）對信息編碼的過程，又叫來源編碼。

Diffie-Hellman密鑰交換算法——一種加密協議，允許雙方在事先不了解對方的情況下，在不安全的通信信道中，共同建立共享密鑰。該密鑰以后可與一個對稱密碼一起，加密后續通訊。

Dijkstra算法——針對沒有負值權重邊的有向圖，計算其中的單一起點最短算法。

離散微分算法（Discrete differentiation）

動態規劃算法（Dynamic Programming）——展示互相覆蓋的子問題和最優子架構算法

歐幾里得算法（Euclidean algorithm）——計算兩個整數的最大公約數。最古老的算法之一，出現在公元前300前歐幾里得的《幾何原本》。

期望-最大算法（Expectation-maximization algorithm，又名EM-Training）——在統計計算中，期望-最大算法在概率模型中尋找可能性最大的參數估算值，其中模型依賴于未發現的潛在變量。EM在兩個步驟中交替計算，第一步是計算期望，利用對隱藏變量的現有估計值，計算其最大可能估計值；第二步是最大化，最大化在第一步上求得的最大可能值來計算參數的值。

快速傅里葉變換（Fast Fourier transform，FFT）——計算離散的傅里葉變換（DFT）及其反轉。該算法應用范圍很廣，從數字信號處理到解決偏微分方程，到快速計算大整數乘積。

梯度下降（Gradient descent）——一種數學上的最優化算法。

哈希算法（Hashing）

堆排序（Heaps）

Karatsuba乘法——需要完成上千位整數的乘法的系統中使用，比如計算機代數系統和大數程序庫，如果使用長乘法，速度太慢。該算法發現于1962年。

LLL算法（Lenstra-Lenstra-Lovasz lattice reduction）——以格規約（lattice）基數為輸入，輸出短正交向量基數。LLL算法在以下公共密鑰加密方法中有大量使用：背包加密系統（knapsack）、有特定設置的RSA加密等等。

最大流量算法（Maximum flow）——該算法試圖從一個流量網絡中找到最大的流。它優勢被定義為找到這樣一個流的值。最大流問題可以看作更復雜的網絡流問題的特定情況。最大流與網絡中的界面有關，這就是最大流-最小截定理（Max-flow min-cut theorem）。Ford-Fulkerson 能找到一個流網絡中的最大流。

合并排序（Merge Sort）

牛頓法（Newton's method）——求非線性方程（組）零點的一種重要的迭代法。

Q-learning學習算法——這是一種通過學習動作值函數（action-value function）完成的強化學習算法，函數采取在給定狀態的給定動作，并計算出期望的效用價值，在此后遵循固定的策略。Q-leanring的優勢是，在不需要環境模型的情況下，可以對比可采納行動的期望效用。

兩次篩法（Quadratic Sieve）——現代整數因子分解算法，在實踐中，是目前已知第二快的此類算法（僅次于數域篩法Number Field Sieve）。對于110位以下的十位整數，它仍是最快的，而且都認為它比數域篩法更簡單。

RANSAC——是“RANdom SAmple Consensus”的縮寫。該算法根據一系列觀察得到的數據，數據中包含異常值，估算一個數學模型的參數值。其基本假設是：數據包含非異化值，也就是能夠通過某些模型參數解釋的值，異化值就是那些不符合模型的數據點。

RSA——公鑰加密算法。首個適用于以簽名作為加密的算法。RSA在電商行業中仍大規模使用，大家也相信它有足夠安全長度的公鑰。

Sch?nhage-Strassen算法——在數學中，Sch?nhage-Strassen算法是用來完成大整數的乘法的快速漸近算法。其算法復雜度為：O(N log(N) log(log(N)))，該算法使用了傅里葉變換。

單純型算法（Simplex Algorithm）——在數學的優化理論中，單純型算法是常用的技術，用來找到線性規劃問題的數值解。線性規劃問題包括在一組實變量上的一系列線性不等式組，以及一個等待最大化（或最小化）的固定線性函數。

奇異值分解（Singular value decomposition，簡稱SVD）——在線性代數中，SVD是重要的實數或復數矩陣的分解方法，在信號處理和統計中有多種應用，比如計算矩陣的偽逆矩陣（以求解最小二乘法問題）、解決超定線性系統（overdetermined linear systems）、矩陣逼近、數值天氣預報等等。

求解線性方程組（Solving a system of linear equations）——線性方程組是數學中最古老的問題，它們有很多應用，比如在數字信號處理、線性規劃中的估算和預測、數值分析中的非線性問題逼近等等。求解線性方程組，可以使用高斯—約當消去法（Gauss-Jordan elimination），或是柯列斯基分解（ Cholesky decomposition）。

Strukturtensor算法——應用于模式識別領域，為所有像素找出一種計算方法，看看該像素是否處于同質區域（ homogenous region），看看它是否屬于邊緣，還是是一個頂點。

合并查找算法（Union-find）——給定一組元素，該算法常常用來把這些元素分為多個分離的、彼此不重合的組。不相交集（disjoint-set）的數據結構可以跟蹤這樣的切分方法。合并查找算法可以在此種數據結構上完成兩個有用的操作：

- 查找：判斷某特定元素屬于哪個組。
- 合并：聯合或合并兩個組為一個組。

維特比算法（Viterbi algorithm）——尋找隱藏狀態最有可能序列的動態規劃算法，這種序列被稱為維特比路徑，其結果是一系列可以觀察到的事件，特別是在隱藏的Markov模型中。

現實中算法

Linux內核中的基本數據結構和算法

鏈表、雙向鏈表和無鎖鏈表

B+ 樹，代碼中的注釋將會告訴你一些教科書中不能學到的內容：

這是一個簡單的B+樹實現，我寫它的目的是作為練習，并以此了解B+樹的工作原理。結果該實現發揮了它的實用價值。

...

一個不經常在教科書中提及的技巧：最小值應該放在右側，而不是左側。一個節點內所有被使用的槽位應該在左側，沒有使用的節點應該為NUL，大部分的操作只遍歷一次所有的槽位，在第一個NUL處終止。

帶權重的有序列表用于互斥鎖、驅動等；

紅黑樹用于調度、虛擬內存管理、跟蹤文件描述符和目錄條目等；

區間樹

Radix樹，用于內存管理、NFS相關查找和網絡相關的功能；

radix樹的一個常見的用法是保存頁面結構體的指針；

優先級堆，文字上的描述，主要是在教科書中實現，用于control group系統;

包含指針的只允許簡單插入的靜態大小優先級堆，基于CLR（算法導論）第七章

哈希函數，引用Knuth和他的一篇論文：

Knuth建議選擇與機器字長所能表達的最大整數約成黃金比例的素數來做乘法散列，Chuck Lever 證實了這個技術的有效性；

http://www.citi.umich.edu/techreports/reports/citi-tr-00-1.pdf

這些選擇的素數是位稀疏的，也就是說對他們的操作可以使用位移和加法來替換機器中很慢的乘法操作；

有些代碼，比如這個驅動，他們是自己實現的哈希函數

哈希表，用于實現索引節點、文件系統完整性檢查等；

位數組，用于處理flags、中斷等，在Knuth第四卷中有對其特性的描述；

Semaphores 和 spin locks

二叉樹搜索用于中斷處理、登記緩存查找等；

使用B-樹進行二叉樹查找；

深度優先搜索和他的變體被應用于目錄配置；

在命名空間樹中執行一個修改過的深度優先算法，開始（和終止于）start_handle所確定的節點。當與參數匹配的節點被發現以后，回調函數將會被調用。如果回調函數返回一個非空的值，搜索將會立即終止，這個值將會回傳給調用函數；

廣度優先搜索用于在運行時檢查鎖的正確性；

鏈表上的合并排序用于垃圾回收、文件系統管理等；

在某個驅動程序的庫函數里，冒泡排序居然也被實現了

Knuth-Morris-Pratt 字符串匹配；

Knuth、Morris和 Pratt [1]實現了一個線性時間復雜度字符串匹配算法。該算法完全規避了對轉換函數DELTA的顯式計算。其匹配時間為O(n)（其中n是文本長度），只使用一個輔助函數PI[1...m]（其中m是模式的長度），模式的預處理時間是O(m)。PI這個數組允許DELTA函數在需要時能迅速運行。大體上，對任意狀態q=0,1,...,m和任意SIGMA中的字符"a"，PI["q"]保存了獨立于"a"的信息，并用于計算DELTA("q", "a")。由于PI這個數組只包含m個條目，而DELTA包含O(m|SIGMA|)個條目，我們通過計算PI進而在預處理時間保存|SIGMA|的系數，而非計算DELTA。

[1] Cormen, Leiserson, Rivest, Stein Introdcution to Algorithms, 2nd Edition, MIT Press

[2] See finite automation theory

Boyer-Moore模式匹配，如下是引用和對其他算法的使用建議；

Boyer-Moore字符串匹配算法:

[1] A Fast String Searching Algorithm, R.S. Boyer and Moore. Communications of the Association for Computing Machinery, 20(10), 1977, pp. 762-772. http://www.cs.utexas.edu/users/moore/publications/fstrpos.pdf

[2] Handbook of Exact String Matching Algorithms, Thierry Lecroq, 2004 http://www-igm.univ-mlv.fr/~lecroq/string/string.pdf

注意：由于Boyer-Moore（BM）自右向左做匹配，有一種可能性是一個匹配分布在不同的塊中，這種情況下是不能找到任何匹配的。

如果你想確保這樣的事情不會發生，使用Knuth-Pratt-Morris（KMP）算法來替代。也就是說，根據你的設置選擇合適的字符串查找算法。

如果你使用文本搜索架構來過濾、網絡入侵檢測（NIDS）或者任何安全為目的，那么選擇KMP。如果你關乎性能，比如你在分類數據包，并應用服務質量（QoS）策略，并且你不介意可能需要在分布在多個片段中匹配，然后就選擇BM。

Chromium 瀏覽器中的數據結構和算法

伸展樹

此樹會被分配策略參數化，這個策略負責在C的自由存儲空間和區域中分配列表，參見zone.h

Demo中使用了Voronoi圖

基于Bresenham算法的標簽管理

同時，代碼中還包含了一些第三方的算法和數據結構，例如：

二叉樹

紅黑樹

AVL樹

用于壓縮的Rabin-Karp字符串匹配

計算自動機的后綴

蘋果實現的布隆過濾器

布氏算法

編程語言類庫

C++ STL，包含的有列表、堆、棧、向量、排序、搜索和堆操作算法

Java API 非常廣泛，包含的太多

Boost C++ 類庫，包含了諸如Boyer-Moore和Knuth-Morris-Pratt字符串匹配算法等；

分配和調度算法

最近最少使用算法有多種實現方式，在Linux內核中是基于列表實現的；

其他可能需要了解的是先入先出、最不常用和輪詢；

VAX、VMS系統中大量使用FIFO的變體；

Richard Carr的時鐘算法被用于Linux中頁面幀替換；

Intel i860處理器中使用了隨機替換策略；

自適應緩存替換被用于一些IBM的存儲控制中，由于專利原因在PostgreSQL只有簡單的應用；

Knuth在TAOCP第一卷中提到的伙伴內存分配算法被用于Linux內核中，FreeBSD和Facebook都在使用jemalloc并發分配器；

*nix系統中的核心組件

grep和awk都實現了使用Thompson-McNaughton-Yamada構建算法實現從正則表達式中創建NFA

tsort實現了拓撲排序

fgrep實現了Aho-Corasick 字符串匹配算法；

GNU grep，據作者Mike Haertel所說，實現了Boyer-Moore算法；

Unix中的crypt(1)實現了啞謎機（Enigma Machine）中的加密算法的變種；

Doug Mcllroy基于和James合作的原型實現的Unix diff，比用來計算Levenshtein距離的標準動態規劃算法更好，Linux版本被用來計算最短編輯距離；

加密算法

Merkle樹，尤其是Tiger Tree Hash的變種，用于點對點的程序，例如GTK Gnutella 和LimeWire;

MD5用于為軟件包提供校驗碼，還用于*nix系統（Linux實現）中的完整性校驗，同時他還支持Windows和OS X系統；

OpenSSL實現了需要加密算法，諸如AES，Blowfish，DES，SHA-1，SHA-2，RSA，DES等；

編譯器

yacc和bison實現了LALR解析器

支配算法用于基于SSA形式的最優化編譯器；

lex和flex將正則表達式編譯為NFA；

壓縮和圖片處理

為GIF圖片格式而出現的Lempel-Zivsraf算法在圖片處理程序中經常被應用，從一個簡單的*nix組件轉化為一個復雜的程序；

運行長度編碼被用于生成PCX文件（用于Paintbrush這個程序中），壓縮BMP文件和TIFF文件；

小波壓縮（Wavelet壓縮）是JPEG 2000的基礎，所以所有生成JPEG 2000文件的數碼相機都是實現了這個算法；

Reed-Solomon糾錯用于Linux內核、CD驅動、條形碼讀取，并且結合卷積從航行團隊進行圖片傳輸；

沖突驅動條款學習算法（Conflict Driven Clause Learning）

自2000年以來，在工業標準中的SAT（布爾滿足性問題）求解器的運行時間每年都在成倍減少。這一發展的一個非常重要的原因是沖突驅動條款學習算法（Conflict Driven Clause Learning）的使用，它結合了Davis Logemann和Loveland的約束編程和人工智能研究技術的原始論文中關于布爾約束傳播的算法。具體來說，工業建模中SAT被認為是一個簡單的問題（見討論）。對我來說，這是近代最偉大的成功故事之一，因為它結合了先進的算法、巧妙的設計思路、實驗反饋，并以一致的共同努力來解決這個問題。Malik和Zhang的CACM論文是一個很好的閱讀材料。許多大學都在教授這個算法，但通常是在邏輯或形式化方法的課程中。

?

希望對您企業應用開發與企業信息化有幫助。其它您可能感興趣的文章：

《視覺直觀感受 7 種常用的排序算法》

《匈牙利 Sapientia 大學的 6 種排序算法舞蹈視頻》

《視頻：6 分鐘演示 15 種排序算法》

《SORTING：可視化展示排序算法的原理，支持單步查看》

《VisuAlgo：通過動畫學習算法和數據結構》

軟件開發的專業化
IT基礎架構規劃方案一(網絡系統規劃)
IT基礎架構規劃方案二(計算機系統與機房規劃規劃)?
IT基礎架構規劃方案三(IT基礎軟件和系統規劃)
企業應用之性能實時度量系統演變
云計算參考架構幾例
智能移動導游解決方案簡介
人力資源管理系統的演化

如有想了解更多軟件研發 , 系統 IT集成 , 企業信息化等資訊，請關注我的微信訂閱號：

作者：Petter Liu
出處：http://www.cnblogs.com/wintersun/
本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接，否則保留追究法律責任的權利。
該文章也同時發布在我的獨立博客中-Petter Liu Blog。

轉載于:https://www.cnblogs.com/wintersun/p/4840585.html

總結

以上是生活随笔為你收集整理的数据结构与算法 Big O 备忘录与现实的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： QQ聊天文字背影图片拉伸方法
下一篇： java 添加一个线程、创建响应的用户界

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

数据结构与算法 Big O 备忘录与现实

以下是Big O 核對表

計算機科學中最重要的32個算法

現實中算法

Linux內核中的基本數據結構和算法

Chromium 瀏覽器中的數據結構和算法

編程語言類庫

分配和調度算法

*nix系統中的核心組件

加密算法

編譯器

壓縮和圖片處理

沖突驅動條款學習算法（Conflict Driven Clause Learning）

?

總結