當前位置：首頁 >

【数据挖掘】贝叶斯公式应用拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

發布時間：2025/6/17 50 豆豆

生活随笔收集整理的這篇文章主要介紹了【数据挖掘】贝叶斯公式应用拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 ) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- - - I . 拼寫糾正簡介
    - II . 拼寫糾正案例需求
    - III . 計算每個假設的概率
    - IV . 引入貝葉斯公式
    - V . 使用貝葉斯公式計算每個假設的概率
    - VI . 比較每個假設概率時 $P (D)$ 分母可忽略
    - VII . $H_n ) \times P ( D | H_n )$ 含義
    - VIII . 先驗概率 , 似然概率與后驗概率

I . 拼寫糾正簡介

1 . 拼寫糾正 :

① 應用場景 : 用戶輸入錯誤的單詞 , 會自動為用戶糾正 ;

② 引入貝葉斯方法 : 這里就涉及到了貝葉斯公式的應用 ;

2 . 貝葉斯方法糾正單詞 :

① 提出假設 : 首先要猜測用戶想要輸入的是哪個單詞 , 給出幾個猜測的可能項 ;

② 計算概率 : 然后計算出每個猜測正確的可能性是多少 ;

③ 選取結果 : 最后將可能性最大的單詞確定為用戶想要輸入的單詞 , 自動將錯誤單詞糾正為該單詞 ;

3 . 涉及到兩個事件概率 :

① 事件 $A$ : 用戶實際輸入的錯誤單詞 ;

② 事件 $B$ : 猜測用戶想要輸入某個單詞單詞 ;

③ 事件轉化為公式變量 : 用戶實際輸入錯誤單詞時 ( 事件 $A$ ) , 猜測用戶想要輸入的是某個單詞的概率 ( 事件 $B$ ) ;

④ 計算公式為 :

$P (猜測用戶想要輸入的是某個單詞 ∣ 用戶實際輸入單詞)$

即 :

$P (B ∣ A)$

單詞糾正準確率 : 很明顯 ,用戶量越大 , 收集的數據越多 , 單詞糾正的準確率就越高 ;

II . 拼寫糾正案例需求

1 . 用戶實際輸入錯誤單詞 : $D$ ; ( 實際觀測數據 Data )

2 . 猜測用戶想要輸入的單詞 : $H1,H2,?,HnH_1 , H_2 , \cdots , H_n$ ; ( 假設 Hypothesis )

III . 計算每個假設的概率

計算每個假設的概率 :

① 用戶輸入錯誤單詞 $D$ 時 , 想要輸入單詞 $H_1$ 的概率 : $P ( 用戶想要輸入單詞 H_1 | 用戶實際出入錯誤單詞 D )$ , 記做 $P(H_1 | D)$ ;

② 用戶輸入錯誤單詞 $D$ 時 , 想要輸入單詞 $H_2$ 的概率 : $P ( 用戶想要輸入單詞 H_2 | 用戶實際出入錯誤單詞 D )$ , 記做 $P(H_2 | D)$ ;

$?\vdots$

③ 用戶輸入錯誤單詞 $D$ 時 , 想要輸入單詞 $H_n$ 的概率 : $P ( 用戶想要輸入單詞 H_n | 用戶實際出入錯誤單詞 D )$ , 記做 $P(H_n | D)$ ;

IV . 引入貝葉斯公式

引入貝葉斯公式計算單個猜測的概率 :

① 用戶輸入錯誤單詞 $D$ 時 , 想要輸入單詞 $H_1$ 的概率 : $P ( 用戶想要輸入單詞 H_1 | 用戶實際出入錯誤單詞 D )$ , 記做 $P(H_1 | D)$ ;

② 逆向概率引入 : $P(H_1 | D)$ 不容易計算出來 , 這里通過其逆向概率計算該概率 ,

③ 引入逆向概率 : $P(D | H_1)$ , 即輸入 $H_1$ 單詞時 , 輸錯成 $D$ 的概率 ;

④ 單個事件概率 ( 先驗概率 ) : 其中需要知道輸入 $H_1$ 單詞的概率 $P (H_1)$ , 和輸入錯誤單詞 $D$ 的概率 $P (D)$ ;

⑤ 已知概率 : 上述逆向概率 ( 似然概率 ) 和單個事件概率 ( 先驗概率 ) , 都可以通過統計學方法得出 ;

$P(H1∣D)=P(H1)×P(D∣H1)P(D)P(H_1 | D) = \frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) }$

V . 使用貝葉斯公式計算每個假設的概率

使用貝葉斯公式計算每個假設的概率 :

① 用戶輸入錯誤單詞 $D$ 時 , 想要輸入單詞 $H_1$ 的概率 : $P(H1∣D)=P(H1)×P(D∣H1)P(D)P(H_1 | D) = \frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) }$

② 用戶輸入錯誤單詞 $D$ 時 , 想要輸入單詞 $H_2$ 的概率 : $P(H2∣D)=P(H2)×P(D∣H2)P(D)P(H_2 | D) = \frac{ P ( H_2 ) \times P ( D | H_2 ) }{ P( D ) }$

$?\vdots$

③ 用戶輸入錯誤單詞 $D$ 時 , 想要輸入單詞 $H_n$ 的概率 : $P(Hn∣D)=P(Hn)×P(D∣Hn)P(D)P(H_n | D) = \frac{ P ( H_n ) \times P ( D | H_n ) }{ P( D ) }$

VI . 比較每個假設概率時 $P (D)$ 分母可忽略

$P (D)$ 分母可忽略 :

① 觀察公式 : 比較上述 $n$ 個概率值 , $P(H1∣D),P(H2∣D),?,P(Hn∣D)P(H_1 | D) , P(H_2 | D) , \cdots , P(H_n | D)$ 之間比較 , 即 $P(H1)×P(D∣H1)P(D),P(H2)×P(D∣H2)P(D),?,P(Hn)×P(D∣Hn)P(D)\frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) } , \frac{ P ( H_2 ) \times P ( D | H_2 ) }{ P( D ) } , \cdots , \frac{ P ( H_n ) \times P ( D | H_n ) }{ P( D ) }$ 之間比較 , 其分母都是 $P (D)$ , 比較時 , 可以忽略該變量 ;

② 忽略概率 : 即輸入錯誤單詞 $D$ 的概率可以不用考慮 ;

③ 比較概率 : 只比較公式中的分子即可 : $H_1 ) \times P ( D | H_1 ) , P ( H_2 ) \times P ( D | H_2 ) , \cdots ,P ( H_n ) \times P ( D | H_n )$ 之間進行比較 ;

VII . $H_n ) \times P ( D | H_n )$ 含義

1 . $H_n ) \times P ( D | H_n )$ 含義 :

① $P ( H_n )$ : 表示用戶輸入 $H_n$ 單詞的概率 ; 這個值可以通過統計得出 ;

② $P ( D | H_n )$ : 表示用戶輸入 $H_n$ 單詞時 , 輸錯成 $D$ 錯誤單詞的概率 ;

2 . $P(H_n , D)$ : $H_n ) \times P ( D | H_n )$ , 其結果是同時輸入 $H_n$ 單詞和輸錯成 $D$ 單詞的概率 , $P(H_n , D)$ ;

VIII . 先驗概率 , 似然概率與后驗概率

1 . 先驗 ( Prior ) 概率 : 某個假設獨立出現的概率 , 是一個單獨事件的概率 , 這個概率是已知的 ;

① 已知條件 : 這個對應求解的已知條件 ;

② 示例對應 : 這里對應用戶輸入 $H_n$ 單詞的概率 , 這可以通過統計得出來 ;

2 . 似然 ( Likelihood ) 概率 : 某個假設生成觀測到的數據的概率 , 是一個聯合概率事件 ;

① 示例對應 : 這里對應 : 用戶輸入 $H_n$ 單詞時 , 輸錯成 $D$ 錯誤單詞的概率 ; 似然概率又叫條件概率 ;

3 . 后驗概率 : 針對提出的多個假設 , 每個假設出現的概率取決于先驗概率和似然概率的乘積大小 , 值越大 , 概率越大 ;

① 目標結果 : 這個對應貝葉斯公式的目標結果 ;

② 示例對應 : 這里對應用戶實際想要輸入的單詞 , 即 $H1,H2,?,HnH_1 , H_2 , \cdots , H_n$ 中概率最大的那個單詞 ;

總結

以上是生活随笔為你收集整理的【数据挖掘】贝叶斯公式应用拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数据挖掘】贝叶斯分类 ( 贝叶斯分类器
下一篇：【数据挖掘】贝叶斯公式在垃圾邮件过滤中的

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )

文章目錄

I . 拼寫糾正 簡介

II . 拼寫糾正 案例需求

III . 計算每個假設的概率

IV . 引入 貝葉斯公式