當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据结构与算法】【算法思想】【算法应用】【排序查找搜索】并行

發(fā)布時間：2023/12/10 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了【数据结构与算法】【算法思想】【算法应用】【排序查找搜索】并行小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

算法的目的就是為了提高代碼執(zhí)行的效率。當(dāng)算法無法再繼續(xù)優(yōu)化的情況下，需要借助并行計算的處理思想對算法進行改造。

并行排序

假設(shè)要給大小為 8GB 的數(shù)據(jù)進行排序，最常用的是三種排序算法，歸并排序、快速排序、堆排序，時間復(fù)雜度為 O(nlogn) 。從理論上講，已經(jīng)很難再從算法層面優(yōu)化了。而利用并行的處理思想可以將執(zhí)行效率提高很多倍。

第一種是對歸并排序并行化處理

將這8GB 的數(shù)據(jù)劃分成 16 個小的數(shù)據(jù)集合，每個集合包含 500MB 的數(shù)據(jù)。
用 16 個線程，并行地對這 16 個 500MB 的數(shù)據(jù)集合進行排序。
16 個小集合分別排序完成之后，再將這 16 個有序集合合并。

第二種是對快速排序并行化處理

將數(shù)據(jù)掃描一遍，找到數(shù)據(jù)所處的范圍區(qū)間，在按從小到大劃分成 16 個小區(qū)間。
將 8GB 的數(shù)據(jù)劃分到對應(yīng)的16 個小區(qū)間中，啟動 16 個線程，并行地進行排序。
等到 16 個線程都執(zhí)行結(jié)束后，得到的數(shù)據(jù)就是有序數(shù)據(jù)了。

對比這兩種處理思路

共同點：它們利用的都是分治的思想，對數(shù)據(jù)進行分片，然后并行處理。
不同點：
（1）第一種處理思路是，先隨意地對數(shù)據(jù)分片，排序之后再合并。
（2）第二種處理思路是，先對數(shù)據(jù)按照大小劃分區(qū)間后再排序，排完序就不需要再處理了。
這個跟歸并和快排的區(qū)別如出一轍。

并行查找

散列表是一種非常適合快速查找的數(shù)據(jù)結(jié)構(gòu)。

弊端：

如果給動態(tài)數(shù)據(jù)構(gòu)建索引，數(shù)據(jù)不斷加入會使散列表的裝載因子越來越大
為了保證散列表性能不下降，就需要對散列表進行動態(tài)擴容
對巨大的散列表進行動態(tài)擴容，不僅比較耗時，還比較消耗內(nèi)存
優(yōu)化：
實際上可以將數(shù)據(jù)隨機分割成 k 份（比如 16 份），每份中的數(shù)據(jù)只有原來的 1/k
然后針對這 k 個小數(shù)據(jù)集合分別構(gòu)建散列表。這樣，散列表的維護成本就變低了
當(dāng)某個小散列表的裝載因子過大的時，可以單獨對這個散列表進行擴容，而其他散列表不需要進行擴容。
當(dāng)要查找數(shù)據(jù)時，通過 16 個線程并行地在這16 個散列表中查找數(shù)據(jù)。這樣的查找性能，比起一個大散列表的做法，也并不會下降，反倒有可能提高。
當(dāng)往散列表中添加數(shù)據(jù)時，可以將新數(shù)據(jù)放入裝載因子最小的散列表中，這樣也有助于減少散列沖突。

假設(shè)有 2GB 的數(shù)據(jù)，放到 16 個散列表中，每個散列表中的數(shù)據(jù)大約是 150MB。當(dāng)某個散列表需要擴容的時候，我們只需要額外增加 150*0.5=75MB 的內(nèi)存（假設(shè)還是擴容到原來的 1.5 倍）。不管從擴容的執(zhí)行效率還是內(nèi)存的利用率上，這種多個小散列表的處理方法，都要比大散列表高效

并行字符串匹配

在文本中查找某個關(guān)鍵詞可以通過字符串匹配算法來實現(xiàn)，字符串匹配算法有 KMP、BM、RK、BF 等

如果處理的是超級大的文本，可以把大的文本，分割成 k 個小文本。假設(shè) k 是 16，就啟動 16 個線程，并行地在這 16 個小文本中查找關(guān)鍵詞，這樣整個查找的性能就提高了 16 倍

當(dāng)長度m的待匹配字符串被分割后，可以獲取前一段長度為m的尾部和長度為m的當(dāng)前段的頭部組合成2m長的自費赴川進行匹配。

并行搜索

搜索算法有：廣度優(yōu)先搜索、深度優(yōu)先搜索、Dijkstra 最短路徑算法、A* 啟發(fā)式搜索算法。對于廣度優(yōu)先搜索算法，也可以將其改造成并行算法。

廣度優(yōu)先搜索是一種逐層搜索的搜索策略
基于當(dāng)前這一層頂點，我們可以啟動多個線程，并行地搜索下一層的頂點
在代碼實現(xiàn)方面，原來廣度優(yōu)先搜索的代碼實現(xiàn)，是通過一個隊列來記錄已經(jīng)遍歷到但還沒有擴展的頂點
經(jīng)過改造之后的并行廣度優(yōu)先搜索算法，需要利用兩個隊列來完成擴展頂點的工作（決多線程的并發(fā)問題）

【算法總結(jié)】

存儲
實最底層的數(shù)據(jù)結(jié)構(gòu)是<addr,value>，按照存儲介質(zhì)是否連續(xù)、是否顯示制定key又可以分為數(shù)組、鏈表和hash，其中數(shù)組可以認(rèn)為是一種<index,arr[index]>，鏈表是<p,*p>，然后在這基礎(chǔ)之上衍生出了一維的線性表、棧、隊列，散列表，二維的樹(平衡二叉樹、紅黑樹、跳表)，三維的圖，還有就是各種數(shù)據(jù)結(jié)構(gòu)靈活組合的數(shù)據(jù)結(jié)構(gòu)，這里的跳表可以算是組合類型的，但是它的使用范圍很多，所以劃到了二維中。
算法
排序、分治、貪心、回溯、動態(tài)規(guī)劃

筆記整理來源：王爭數(shù)據(jù)結(jié)構(gòu)與算法之美

總結(jié)

以上是生活随笔為你收集整理的【数据结构与算法】【算法思想】【算法应用】【排序查找搜索】并行的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。