日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理笔记5-哈工大 关毅

發布時間:2024/1/1 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自然语言处理笔记5-哈工大 关毅 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

文章目錄

  • 目錄
  • 前言
  • n-gram語言模型(一)
  • n-gram語言模型(二)
  • n-gram語言模型(三)
  • n-gram語言模型(四)
  • n-gram語言模型(五)
  • n-gram語言模型(六)
  • n-gram語言模型(七)

前言

碩士生涯結束,開始專心做一件自己覺得有用的工具,先做工程,后搞理論。
自然語言處理是一個非常難的問題,同時是人工智能皇冠上的明珠。
接下來會記錄一系列自然語言處理的筆記,來自于哈工大老師關毅。

n-gram語言模型(一)

n元詞序列,通分詞一元頻度,語料庫加工,最大熵模型基本信息,噪聲信道模型,信源s發出信息,一系列01序列。輸入和輸出完全匹配一致,信息轉變。
in->process->out 貝葉斯公式是統計的核心地位,一個聲學信號對應于一個語句。
T=argmax(p(T/A))
求的是使其概率最大的T。
語音識別的應用,信源的應用:手寫體漢字識別,文字作用信源。
以概率p輸出字符串。
目標,翻譯,輸出。
一段語音文字出現的概率(P(T)),語言模型,完成特定功能的數據結構。實現字符串結構的模型概率,信源字符序列。
香農游戲給定前n個詞,求下一個詞。

n-gram語言模型(二)

全概率模型0-1規則,力量較強。
參數統計模型,空間大,稀疏。
馬爾可夫假設:
下一個詞依賴于前一個詞:
P(s|t)=P(S|t-1)
Trigram模型:
P(I)P(W1)P(W2∣W1)P(I)~P(W_1)P(W_2|W_1)P(I)?P(W1?)P(W2?W1?)
還可以無限延伸變成ngram模型。
約減參數空間,可靠辨別,一個參數。
數據平滑技術,只統計他的一元頻度
某語料庫詞匯分布圖,最大相似度估計分布圖,期望概率分布圖。

n-gram語言模型(三)

數據平滑技術,discounting技術,分給小的validation,拉普拉斯定律,加一平滑法。
大家同加一,解決數據稀疏問題。
Plap=W1N+BB=∣U∣nP_{lap}=\frac{W_1}{N+B} B=|U|^nPlap?=N+BW1??B=Un
Good-Turing 估計 :如果C(W1,W2,...WN)=r>0C(W_1,W_2,...W_N)=r>0C(W1?,W2?,...WN?)=r>0
Pat(W1,..Wn)=r?/NPat(W_1,..W_n)=r*/NPat(W1?,..Wn?)=r?/N
此處R*=(r+1)S(r+1)/s?
這里S?是Nr的期望平滑估計。Nr=arb,估計整體分布參數估計的一種。
圖靈估計,線性插值平滑。構造高魯棒性語言模型2規模小,效果顯著3規模大效果不顯著。
技術上實行。

n-gram語言模型(四)

只依賴前n-1個詞的詞性,n-pose模型。
動態估計和靜態估計合力解決詞匯問題
統計語言模型的評價方法:實用方法。
基于交叉熵與迷惑度的方法。
H(x)=?∑q(x)logp(x)q(x)H(x)=-\sum q(x) log \frac{p(x)}{q(x)}H(x)=?q(x)logq(x)p(x)?

n-gram語言模型(五)

argmax(P(T|s))語言模型的實例
考慮數據的加載與注入,高壓縮比數據。
N-gram 語言模型的構造

n-gram語言模型(六)

理解骨架,基本模型,隱馬,極大熵。
生成/條件判別模型。
最大熵原理是指在一定的限制條件下,盡可能地選擇熵最大的概率分布(均勻分布),作為預測結果,而對不知道(限制條件以外)的情形不做任何假設。
如何設計正負的概率。
假設在語料庫中,有如下詞性標記及次數,估計在限定條件下的概率,選擇滿足限定條件的P。
使H(p)為最大
H(x)=?∑P(x)logp(x)H(x)=-\sum P(x)logp(x)H(x)=?P(x)logp(x)a<A且b<B.
在最大熵模型中,特征是一個關于事件的二值函數。
fj:x?》0,1,x=A?Bf_j:x-》{0,1},x=A*Bfj?:x?0,1,x=A?B,原子級特征。

n-gram語言模型(七)

限制條件,模型特征的期望值等于訓練語料庫中觀察到的特征的期望值。
Epfj=EpfjE_pf_j=Ep^~f_jEp?fj?=Ep?fj?
訓練語料庫非常關鍵,從訓練數據到可觀測事件,解的存在且唯一,拉格朗日解。
最大熵模型的使用方法(rf條件隨機域)
文本數據,數據缺失,HMM/EM。

總結

以上是生活随笔為你收集整理的自然语言处理笔记5-哈工大 关毅的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。