日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

Deep Learning(深度学习) 学习笔记(四)

發(fā)布時(shí)間:2023/12/13 pytorch 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Deep Learning(深度学习) 学习笔记(四) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

神經(jīng)概率語(yǔ)言模型,內(nèi)容分為三塊:問題,模型與準(zhǔn)則,實(shí)驗(yàn)結(jié)果。[此節(jié)內(nèi)容未完待續(xù)...]


1,語(yǔ)言模型問題

? ? ? 語(yǔ)言模型問題就是給定一個(gè)語(yǔ)言詞典包括v個(gè)單詞,對(duì)一個(gè)字串做出二元推斷,推斷其是否符合該語(yǔ)言表達(dá)習(xí)慣。也就是的取值為0或者為1。

? ? ? ?概率語(yǔ)言模型放松了對(duì)取值的限制,讓其在0~1之間取值(語(yǔ)言模型 v.s 概率語(yǔ)言模型),而且全部的字串的概率之和為1。維基百科對(duì)于概率語(yǔ)言模型的解釋為:是借由一個(gè)概率分布,而指派概率給字詞所組成的字串。可是須要注意的是直接對(duì)進(jìn)行求其概率分布是不現(xiàn)實(shí)的,由于理論上這樣的字串?dāng)?shù)量是無限的。直接求其概率分布會(huì)導(dǎo)致維度災(zāi)難。

? ? 為了解決這個(gè)問題,首先引入鏈?zhǔn)椒▌t(chain rule),覺得字串中第i個(gè)字符出現(xiàn)的概率是由其前面i-1個(gè)字符決定的。這樣就有例如以下公式:?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? 可是,有了這個(gè)公式還是太復(fù)雜了。繼續(xù)引入如果簡(jiǎn)化公式,覺得字串中第i個(gè)字符出現(xiàn)的概率是由其前面n-1個(gè)字符決定(也就是如果)的。這樣公式就繼續(xù)被簡(jiǎn)化:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? 模型如今就變得非常easy了,就是計(jì)算條件概率。也就是須要計(jì)算給定字串后,字典中的每一個(gè)字出現(xiàn)的概率。


2. 模型與準(zhǔn)則

??2.1 數(shù)據(jù) 給定一些標(biāo)記號(hào)的樣本.

? 2.2 模型

??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖1. 模型圖解

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖片來自:http://licstar.net/archives/328

? ? 建模步驟

? ? 2.2.1 查表:將輸入的單詞,通過查表(圖1中Table look-up過程)將單詞映射為m維的詞向量。此處的所查的表并非給定的,是在模型學(xué)習(xí)中獲得的附加產(chǎn)物(也就是word2vec產(chǎn)生的那些向量玩意)。

? ? 2.2.2 線性變換:將2.2.1中的n-1個(gè)m維度的向量通過首尾拼接的方式線性變換成為(n-1)*m維的向量。也就是在中間那個(gè)tanh層輸入處(以下)全部分向量C(w)合并為一個(gè)大的維度為(n-1)*m的向量[Mikolov的RNNLM在此做出改變:不只只看n-1個(gè)單詞的信息,而是看該詞前面全部的單詞信息]。

? ? 2.2.3?非線性變換:在中間那個(gè)tanh層處進(jìn)行非線性變換。這里須要的是一個(gè)變換矩陣和偏置矩陣。也就是對(duì)于中間那一層(tanh所在的那一層),該層的輸入是(n-1)*m的向量,輸出是。經(jīng)過線性變換后,先前的(n-1)*m維的向量成為了h維的向量。

? ? 2.2.4 輸出處理:在最后一層(softmax層)進(jìn)行處理輸出。這里須要一個(gè)變換矩陣和一個(gè)偏置矩陣。最后輸出就是。注意到最后輸出的是一個(gè)v維度的向量,和我們的第一節(jié)中詞典D的維度是一致的。向量中每個(gè)維度相應(yīng)的實(shí)數(shù)就是輸出該單詞的概率。

? ? ?

? ? 2.3 準(zhǔn)則

? ? 對(duì)全部的訓(xùn)練樣本,其準(zhǔn)則為使取最小,此處為正則項(xiàng)。能夠使用梯度下降法進(jìn)行求取。

??

? ? 模型中須要人工設(shè)定的參數(shù)是模型的元數(shù)n,詞向量的維度m,隱層的輸出維度h。

? ? 須要模型優(yōu)化的參數(shù):變換矩陣W和H,偏置矩陣d和b,查表所使用的詞向量表都是須要優(yōu)化的參數(shù),也就是我們所求取的參數(shù)。

??

? ? 3.實(shí)驗(yàn)結(jié)果

? ? 語(yǔ)言模型困惑度。模型困惑度是用來評(píng)價(jià)不同的語(yǔ)言模型好壞的一種方法(另一種方法是Word Error Rate,Mikolov的博士論文《Statistical Language Models based on Neural Networks》博士論文對(duì)這兩種方法有介紹和比較)。給定測(cè)試數(shù)據(jù)集合,模型在該測(cè)試集合上的困惑度越小越好。

? ? 測(cè)試集合一:

? ? Brown Corpus,共計(jì)118w單詞,當(dāng)中80w訓(xùn)練,20w驗(yàn)證,其它18w作為測(cè)試集合。

? ? 在n=5,m=30,h=100時(shí)候NNLM的PPL為270。該測(cè)試集合眼下最好的n-gram模型(n=3)的PPL為312。設(shè)置權(quán)重進(jìn)行模型融合后的PPL為252。

? ? 測(cè)試集合二:

? ? AP News,共計(jì)1600w詞,當(dāng)中1400w訓(xùn)練,100w驗(yàn)證,其它100w作為測(cè)試集合。

? ??在n=6,m=100,h=109時(shí)候NNLM的PPL為109。該測(cè)試集合眼下最好的n-gram模型的PPL為117。

? ?

網(wǎng)上學(xué)習(xí)資料:

關(guān)于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的博客:點(diǎn)擊打開鏈接

Mikolov的博士論文《Statistical Language Models based on Neural Networks》 關(guān)于n-gram語(yǔ)言模型的評(píng)價(jià)是簡(jiǎn)單有用(N-gram models are today still considered as state of the?art not because there are no better techniques, but because those better techniques are?computationally much more complex, and provide just marginal improvements, not critical?for success of given application.),模型的關(guān)鍵就是選擇n值和平滑技術(shù)。其固有缺點(diǎn)例如以下:

? ? ? ? 第一,n-gram模型的n值無法取大。由于模型n-gram片段的數(shù)量會(huì)隨著n值的變大指數(shù)增長(zhǎng)。這一點(diǎn)就決定了n-gram模型無法有效的利用更長(zhǎng)的上下文信息。特殊的,當(dāng)被提供海量訓(xùn)練語(yǔ)料時(shí),n-gram模型也無法有效捕捉一些長(zhǎng)距離的語(yǔ)言現(xiàn)象。

? ? ? ?第二,即使n值能夠取得比較大,n-gram無法有利用長(zhǎng)距離的上下文信息。比如,有一個(gè)句子The sky above our heads is bleu. 這句話里面單詞 bleu對(duì)單詞sky有著非常強(qiáng)的依賴關(guān)系,無論這兩個(gè)單詞中間插入多少變量都不會(huì)破壞這樣的關(guān)系。比如The sky this morning was bleu. 可是對(duì)n-gram模型,即使放開n值的限制,取一個(gè)較大的n值,也無法有效地捕捉這樣的長(zhǎng)距離的語(yǔ)言現(xiàn)象。

? ? ? ? 第三,n-gram模型無法高效的對(duì)相似的詞語(yǔ)進(jìn)行辨別。比如:訓(xùn)練語(yǔ)料中存在Party will be on Monday. 和Party will be on Tuesday. 模型無法對(duì)類似Party will be on Friday.的句子賦予較高的概率。盡管我們?nèi)丝梢郧宄馈癕onday”,"Tuesday","Friday"這些是類似的概念,可是只對(duì)字面進(jìn)行建模的n-gram無法辨別。



轉(zhuǎn)載于:https://www.cnblogs.com/mengfanrong/p/3933759.html

總結(jié)

以上是生活随笔為你收集整理的Deep Learning(深度学习) 学习笔记(四)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。