日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

动态规划 —— 线性 DP —— 字符串编辑距离

發(fā)布時間:2025/3/17 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 动态规划 —— 线性 DP —— 字符串编辑距离 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

【概述】

字符串編輯距離,即 Levenshtein 距離,是俄國科學(xué)家 Vladimir Levenshtein 提出的概念,是指從一個字符串修改到另一個字符串時,編輯單個字符所需的最少次數(shù),編輯單個字符允許的操作有:替換、插入、刪除。

Levenshtein 距離一般用來衡量兩個字符串的相似度,一般來說,兩個字符串的編輯距離越小,相似度越大。

舉例來說,從 "set" 改到 "sitting" 需要 5 次單字符編輯操作:

  • e 修改為 i:sit
  • 添加 t:sitt
  • 添加 i:sitti
  • 添加 n:sittin
  • 添加 g:sitting

因此,set 與 sitting 的編輯距離為:3

Levenshtein 算法

Levenshtein 算法又稱編輯距離(Edit Distance)算法,用于求兩個長度分別為 n、m的字符串 a、b 的 Levenshtein 距離,其是一個線性動態(tài)規(guī)劃的算法,時空復(fù)雜度均為 O(nm)。

1. 狀態(tài)轉(zhuǎn)移方程

對于兩個字符串 a、b,其長度為 |a|、|b|,他們間的編輯距離定義為:

其中, 是指字符串 a 的前 i 個字符和字符串 b 的前 j 個字符的編輯距離。

在有了編輯距離后,字符串 a、b 的相似度定義為:

2.算法原理

對于 a、b 兩個字符串來說,我們先考慮極端的情況,即 a 或 b 的長度為 0 時,那么要編輯的次數(shù)就是另一個字符串的長度。

之后,我們考慮一般情況,在 k 個操作中有:

  • 刪除操作:將 a[1],a[2],...,a[i-1] 轉(zhuǎn)換為 b[1],b[2],...,b[j]
  • 插入操作:將 a[1],a[2],...,a[i] 轉(zhuǎn)換為 b[1],b[2],...,b[j-1]
  • 替換操作:將 a[1],a[2],...,a[i-1] 轉(zhuǎn)換為 b[1],b[2],...,b[j-1]

對于刪除操作,只需將 a[i] 從 a 中移除,即可完成轉(zhuǎn)換,此時編輯次數(shù)為 k+1

對于插入操作,只需在 a[i] 后加上 b[j],即可完成轉(zhuǎn)換,此時編輯次數(shù)為 k+1

對于替換操作,只需將 a[i] 轉(zhuǎn)換為 b[j],即可完成轉(zhuǎn)換,需要注意的是,如果 a[i] 與 b[j] 相同,那么此時編輯次數(shù)為 k,如果 a[i] 與 b[j] 不同,那么此時編輯次數(shù)為 k+1

而為了保證將 a[1],a[2],...,a[i] 轉(zhuǎn)換為 b[1],b[2],...,b[j] 的操作次數(shù)是最少的,因此要在三種情況中取最小值,故而只需要按此邏輯進(jìn)行迭代,保證每一步操作都是最小即可。

3.實例

我們以字符串 a:abroad 與字符串 b:aboard 為例,并在計算過程中將每一步的操作數(shù)放入 i+1 行 j+1 列的二維數(shù)組 dp 中,此時 dp[i][j] 即為將 a[1],a[2],...,a[i] 轉(zhuǎn)換為 b[1],b[2],...,b[j] 所需的最小操作數(shù)。

首先考慮極端情況,即 a 為空字符串或 b 為空字符串時,需要的操作此時為另一字符串的長度,即:dp[i][0]=i,dp[0][j]=j

之后我們考慮一般情況,從頭到尾遍歷這個二維數(shù)組,從第一行到最后一行,根據(jù)定義來計算 dp[i][j] 的值,即 dp[i][j] 的值由 dp[i][j] 的上方元素 dp[i-1][j]、左方元素 dp[i][j-1]、左上方元素 dp[i-1][j-1] 的值來計算得出

最后 dp[aLen][bLen] 即為字符串 a 轉(zhuǎn)換到 b 的 Levenshtein 距離。

如下圖,最終 "abroad" 與 "aboard" 的 Levenshtein 距離 ,相似度

4.實現(xiàn)

char a[N], b[N]; int dp[N][N]; int main() {scanf("%s%s", a, b);int aLen = strlen(a);int bLen = strlen(b);//極端情況for (int i = 1; i <= aLen; i++) //以i+1來考慮第i個字符的情況dp[i][0] = i;for (int j = 1; j <= bLen; j++) //以j+1來考慮第j個字符的情況dp[j][0] = j;for (int i = 1; i <= aLen; i++) { //以i+1來考慮第i個字符的情況for (int j = 1; j <= bLen; j++) { //以j+1來考慮第j個字符的情況if (a[i - 1] == b[j - 1]) //相同時距離不變dp[i][j] = dp[i - 1][j - 1];else //不同時取三個位置的最小值再+1dp[i][j] = min(dp[i - 1][j - 1],min(dp[i - 1][j], dp[i][j - 1])) + 1;}}printf("%d\n", dp[aLen][bLen]);return 0; }

?

總結(jié)

以上是生活随笔為你收集整理的动态规划 —— 线性 DP —— 字符串编辑距离的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。