當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

字符串匹配算法(一)：BF(BruteForce)算法和RK(RabinKarp)算法

發布時間：2024/4/11 编程问答 63 豆豆

生活随笔收集整理的這篇文章主要介紹了字符串匹配算法(一)：BF(BruteForce)算法和RK(RabinKarp)算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

BF
- 思路
- 實現
RK
- 思路
- 實現

字符串匹配是計算機科學中最古老、研究最廣泛的問題之一。一個字符串是一個定義在有限字母表∑上的字符序列。例如，ATCTAGAGA是字母表∑ = {A,C,G,T}上的一個字符串。字符串匹配問題就是在一個大的字符串T中搜索某個字符串P的所有出現位置。

為了方便后面講解，在這里先提出幾個概念。

主串和模式串，主串即字符串的本體，模式串即用于比對的子串，即我們將要在主串中查找模式串。例如我們要在字符串A中查找字符串B，則A為主串，B為模式串。
單模式匹配算法：即在一個主串中匹配一個模式串，例如BF、RK、BM、KMP等算法就是單模式
多模式匹配算法：即在一個主串中匹配多個字符串，例如之前講過的Trie樹，以及之后會寫的AC自動機。

BF

思路

BF算法是Brute Force的縮寫，中文名叫做暴力匹配算法，故名思意，其算法簡單粗暴，但對應的性能也不高，算法邏輯如下。

如上圖，BF算法的思路就是從主串的每一個位置進行對比，如果當前位置模式串無法匹配，就移動到下一個位置，繼續匹配

實現

該算法的實現十分簡單，代碼如下

#include<string> #include<iostream>using namespace std;int bruteForce(const string& str, const string& pattern) {//不滿足條件則直接返回falseif(str.empty() || pattern.empty() || str.size() < pattern.size()){return -1;}int i = 0, j = 0;int len1 = str.size(), len2 = pattern.size();while(i < str.size()){while(j < pattern.size()){//如果當前不匹配if(str[i + j] != pattern[j]){i++; //主串移動到下一個位置j = 0; //模式串回到起始位置break;}j++; //如果模式串當前位置匹配，則繼續匹配下一個位置}//如果模式串全部匹配，則返回匹配的位置if(j == pattern.size()){return i;}}return -1; }

可以看出，這種算法存在著大量無意義的匹配，在最壞的情況下，我們需要依次匹配完主串中的所有位置，因此其時間復雜度高達O(N * M) N為主串長度，M為模式串長度。

RK

思路

那么有什么方法可以減少那些不必要的匹配，提高效率呢？這時候就可以巧妙地借助哈希算法來完成這個任務。

如果對于哈希不了解的可以查看我往期的博客
高級數據結構與算法 | 哈希：哈希沖突、負載因子、哈希函數、哈希表、哈希桶

RK算法的全稱是RabinKarp，是Rabin 和 Karp這兩位科學家在BF算法的基礎上，加上了哈希的思想后是實現的。

BF算法的主要缺陷在于模式串會去嘗試匹配主串的任何一個位置，并且其中每次的匹配都會去一個一個字符進行對比，導致效率的下降。

而RK算法則想到了一個好方法，可以先進行一個預匹配，即哈希值的匹配，如果哈希值不同則說明字符串不同，沒有比較的意義，而當哈希值相同時，為了避免哈希沖突的情況，再進行字符串的匹配即可。

由于哈希值只是一個整型，其比較起來的代價比起字符串大大的降低了

不過，哈希值的計算也需要通過遍歷字符串來獲得，那么效率不是又變低了嗎？這時，就可以通過合理的設計哈希函數，來解決這個問題。

在這里，我選擇使用最簡單的按位相加來進行舉例

首先，我們將模式串以及主串中第一個用來匹配的子串的哈希值計算出來，進行比較。

int hashFunc(const string& str) {int hashCode = 0;for(int i = 0; i < str.size(); i++){hashCode += (str[i] - 'a');}return hashCode; }

當其不匹配時，我們需要匹配主串的下一個位置，由于字符串發生變化，哈希值也應該發生變化。

考慮到匹配子串的變化起始就是從主串中向后移動一位，也就是刪除了最高位，增加了最低位，所以我們可以借助這個性質，進行增量計算，即減去首位的哈希值，加上末尾的哈希值，就可以避免每次都要重復計算哈希值的問題。

//獲取移動到下一個位置后的字符串哈希值，即減去開頭的哈希值，加上末尾的哈希值 int nextHash(const string& str, int hash, int begin, int end) {hash -= (str[begin] - 'a');hash += (str[end] - 'a');return hash; }

上面這種哈希算法的計算十分簡單，但是也存在著大量的哈希沖突，所以選擇一個合理的哈希算法，對效率的提升有很大的幫助，但是每種哈希算法也存在著一定的缺陷，例如26進制，雖然其幾乎避免了哈希沖突，但是在字符串過長時會導致哈希值的溢出，所以要結合使用場景對哈希函數進行選擇。
由于這里只是算法的一個介紹，就直接使用這種最簡單的哈希函數。

此時，整個RK算法就包含兩個部分，第一部分是進行哈希值的計算，時間復雜度為O(N)，第二部分就是進行字符串的匹配，因為哈希值的比較的時間復雜度為O(1)，而哈希值的更新也只是簡單的增量計算，也是O(1)，所以整個算法的時間復雜度為O(N)，但是在最壞情況下，如存在大量的哈希沖突時，每次都需要將進行字符串的對比，這時的時間復雜度就會退化回O(N * M)

實現

算法實現如下

#include<string> #include<iostream>using namespace std;//字符串哈希函數，這里使用的是最簡單的按位相加 int hashFunc(const string& str) {int hashCode = 0;for(int i = 0; i < str.size(); i++){hashCode += (str[i] - 'a');}return hashCode; }//獲取移動到下一個位置后的字符串哈希值，即減去開頭的哈希值，加上末尾的哈希值 int nextHash(const string& str, int hash, int begin, int end) {hash -= (str[begin] - 'a');hash += (str[end] - 'a');return hash; }int rabinKarp(const string& str, const string& pattern) {//不滿足條件則直接返回falseif(str.empty() || pattern.empty() || str.size() < pattern.size()){return -1;}int len1 = str.size(), len2 = pattern.size();int patternHash = hashFunc(pattern);int subHash = hashFunc(str.substr(0, len2));for(int i = 0; i < (len1 - len2 + 1); i++){//如果當前的哈希值相同，則遍歷比較字符串是否也相同，如果不同則沒有必要進行比較if(patternHash == subHash && pattern == str.substr(i, len2)){return i; //如果當前匹配，則返回匹配主串的起始位置}//如果主串中剩余字符還能與模式串進行對比，則更新哈希值if(len1 - i > len2){subHash = nextHash(str, subHash, i, i + len2);}}return -1; }

總結

以上是生活随笔為你收集整理的字符串匹配算法(一)：BF(BruteForce)算法和RK(RabinKarp)算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Trie(字典树) : 如何实现搜索引擎
下一篇：字符串匹配算法(二)：BM(BoyerM

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

字符串匹配算法(一)：BF(BruteForce)算法和RK(RabinKarp)算法

文章目錄

BF

思路

實現

RK

思路

實現

總結