日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

后缀数组(后续)

發(fā)布時間:2023/12/3 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 后缀数组(后续) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

    • **后綴數(shù)組 Height**
      • 兩個子串最長公共前綴
    • **求Height數(shù)組**
      • 比較一個字符串的兩個子串的大小關系
      • 不同子串的數(shù)目
    • 出現(xiàn)至少k次的子串的最大長度
    • **總結:**
    • 代碼:

后綴數(shù)組 Height

利用后綴數(shù)組快速求出2個后綴的lcp長度
lcp:最長公共前綴
lcp(suf(i),suf(j))
記Height[l] = 排名第(l-1)后綴和排名第l后綴的lcp長度
Height[l] = lcp(suf(SA[l-1]),suf(SA[l]))

l = 后綴suf(i)的排名
r = 后綴suf(j)的排名
結論:

兩個子串最長公共前綴

lcp(suf(i),suf(j)) = min(Height[l+1]…Height[r] )
即兩個后綴的lcp = 它們排名區(qū)間中Height的最小值
維護rmq

求Height數(shù)組

暴力求O(N2)

for i =1-Nl =rank[i]j = sa[l-i]k=0while(s[i+k]==s[j+k])k++;Height[l]=k;

suf(k)為s(k…n)構成的子串
SA[1]排序第1的后綴的開始位置
令l =rank[i],r = rank[i-1]
Height[l] = lcp(suf(SA[l-i],suf(i)))
Height[r] = lcp(suf(SA[r-1],suf(i-1)))
結論:
Height[l] >= Height[r]-1
Height[rank[i]] >= Height[rank[i-1]] - 1

利用Height[rank[i]] >= Height[rank[i-1]] - 1優(yōu)化暴力
復雜度為O(N)

for i =1-Nj = sa[l-i]k=max(0,Height[rank[i-1]-1])while(s[i+k]==s[j+k])k++;Height[l]=k;

之后再用st表來來維護Height的rmq信息

比較一個字符串的兩個子串的大小關系

需要比較A=S[a…b]和B=S[c…d]的大小關系
若lcp(a,c)>=min(|A|,|B|),A<B <= => |A| < |B|
否則,A<B <= => rk[a]<rk[b]

不同子串的數(shù)目

子串其實就是后綴的前綴,(想辦法和后綴扯上關系),所以可以枚舉每個后綴,計算前綴總數(shù),再減掉重復
前綴總數(shù)其實就是子串個數(shù):n*(n+1)/2
所以答案是:
n*(n+1)/2 - ∑ni=2height[i]

出現(xiàn)至少k次的子串的最大長度

子串可以看做是后綴的前綴,出現(xiàn)k次的子串說明至少有k個后綴的lcp是這個子串,我們對后綴排序,說明至少有連續(xù)k個后綴的LCP是這個后綴,既然是連續(xù),那么我們只需要看頭和尾就行
所以,求出每相鄰k-1個height的最小值,然后求這些最小值的最大值就是我們要的答案
可以用單調隊列O(n)解決

總結:

倍增求長度為2k子串的字典序
排序是二元組的基數(shù)排序
求SA O(NlogN)
求Height O(N)
求lcp
st表 預處理O(NogN)+單次詢問O(1)
P3809 【模板】后綴排序
P4051 【JSOI2007】字符加密
P2852 [USACO06DEC]Milk Patterns G

代碼:

#include<bits/stdc++.h> using namespace std; const int MAXN =1000005;char ch[MAXN], all[MAXN]; int sa[MAXN], rk[MAXN], height[MAXN], tax[MAXN], tp[MAXN], a[MAXN], n, m; char str[MAXN]; //rk[i] 第i個后綴的排名; sa[i] 排名為i的后綴位置; height[i] 排名為i的后綴與排名為(i-1)的后綴的LCP //tax[i] 計數(shù)排序輔助數(shù)組; tp[i] rk的輔助數(shù)組(計數(shù)排序中的第二關鍵字),與sa意義一樣。 //a為原串 void RSort() {//rk第一關鍵字,tp第二關鍵字。for (int i = 0; i <= m; i ++) tax[i] = 0;for (int i = 1; i <= n; i ++) tax[rk[tp[i]]] ++;for (int i = 1; i <= m; i ++) tax[i] += tax[i-1];for (int i = n; i >= 1; i --) sa[tax[rk[tp[i]]] --] = tp[i]; //確保滿足第一關鍵字的同時,再滿足第二關鍵字的要求 } //計數(shù)排序,把新的二元組排序。int cmp(int *f, int x, int y, int w) { return f[x] == f[y] && f[x + w] == f[y + w]; } //通過二元組兩個下標的比較,確定兩個子串是否相同void Suffix() {//safor (int i = 1; i <= n; i ++) rk[i] = a[i], tp[i] = i;m = 127 ,RSort(); //一開始是以單個字符為單位,所以(m = 127)for (int w = 1, p = 1, i; p < n; w += w, m = p) { //把子串長度翻倍,更新rk//w 當前一個子串的長度; m 當前離散后的排名種類數(shù)//當前的tp(第二關鍵字)可直接由上一次的sa的得到for (p = 0, i = n - w + 1; i <= n; i ++) tp[++ p] = i; //長度越界,第二關鍵字為0for (i = 1; i <= n; i ++) if (sa[i] > w) tp[++ p] = sa[i] - w;//更新sa值,并用tp暫時存下上一輪的rk(用于cmp比較)RSort(), swap(rk, tp), rk[sa[1]] = p = 1;//用已經(jīng)完成的sa來更新與它互逆的rk,并離散rkfor (i = 2; i <= n; i ++) rk[sa[i]] = cmp(tp, sa[i], sa[i - 1], w) ? p : ++ p;}//離散:把相等的字符串的rk設為相同。//LCPint j, k = 0;for(int i = 1; i <= n; height[rk[i ++]] = k) for( k = k ? k - 1 : k, j = sa[rk[i] - 1]; a[i + k] == a[j + k]; ++ k);//這個知道原理后就比較好理解程序 }void Init() {scanf("%s", str);n = strlen(str);for (int i = 0; i < n; i ++) a[i + 1] = str[i]; }int main() {Init();Suffix();int ans = height[2];for (int i = 3; i <= n; i ++) ans += max(height[i] - height[i - 1], 0);for(int i=1;i<=n;i++)cout<<sa[i]<<" ";puts(""); // printf("%d\n", ans); }

總結

以上是生活随笔為你收集整理的后缀数组(后续)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。