當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP Coursera By Michael Collins - Week1

發布時間：2023/12/3 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 NLP Coursera By Michael Collins - Week1 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載自? ?NLP Coursera By Michael Collins - Week1

構建模型框架 - Markov Process

畢竟是機器學習嘛，所以第一步，先要把實際問題轉化成數學模型。

在NLP中，一般使用的都是概率模型，即把語言模型變成概率論范疇。

比如說，現在有一段語音，說的很含糊，沒有聽清楚，好像是“like your”，又好像是“lie cured”。

那么到底是哪一種呢？我們就看在現有的語料庫中，到底是“like your”出現的概率大，還是“lie cured”的概率大。

于是就把語音識別問題轉變成了一個概率問題：輸入一串字符，輸出這串字符組合在一起的概率，如果概率大，就是正確的句子。

下面構建這個模型

至此，模型框架搭建完畢，但是參數還沒有設定好。

也就是說，現在如果向模型中隨便輸入一個句子，要求輸出的結果是這個句子出現的概率。

那么我們就需要事先知道模型中，每一個p(w|u,v)。

用如下方式來計算：

對于上面的計算方法，不能解決出現概率為0，但實際這句句子是合理的情況。

下面介紹兩種方法，來對上面的計算方法進行改進：

第一種是Linear Interpolation：

這里的三個系數用下面的方法進行選擇：

其實這個方法就是將三種計算概率的方式線性結合起來，具體的結合方式有很多種，上面只是其中一種。

上面這個方法中的三個系數和概率本身沒有關系，但是更好的方法是讓他們有關系：

bucketing法：對不同范圍內的counts，使用不同的系數

將三個系數都寫成同一個參數的線性組合：

第二種是Discounting Method:

這個方式就是，從概率不為0的情況中分出一部分的概率給概率為0的情況。

至此為止，整個模型搭建完畢。

評價模型

一般情況下：

當服從均勻分布的時候：

以上就是這一周的課程中講的內容。notes中的內容和這個一樣，基本沒有什么補充。

下面用一張流程圖來總結一下整個模型的構建過程。

以上是生活随笔為你收集整理的NLP Coursera By Michael Collins - Week1的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。