李宏毅 bert 讲解
原始bert是干嘛的
bert就是transformer的encoder
輸入seq,輸出seq
先決定蓋哪幾個(gè),再?zèng)Q定怎么蓋
展示原始的bert
然后輸出
輸出的就是一個(gè)向量,里面就是詞典所有的單詞的概率(是嗎)
里面的linear怎么做的(小參數(shù))
然后跟我那個(gè)真實(shí)值,最小化,(就是一個(gè)分類(lèi)問(wèn)題),訓(xùn)練的時(shí)候,bert里面的參數(shù)和我們那個(gè)liner的參數(shù)一起訓(xùn)練。
工作2(好像沒(méi)啥用)
除了上述的mask之外,還會(huì)預(yù)測(cè)下一個(gè)句子
這個(gè)輸出的yes或者or,意思就是我這兩個(gè)句子是不是相接的,后來(lái)說(shuō)這個(gè)方法其實(shí)沒(méi)有什么用。
然后就是bert其實(shí)它的作用就是填空,但是他卻可以使用在其他的任務(wù)上,這些任務(wù)叫做下游任務(wù)(downstream tasks),
下游任務(wù)–微調(diào)
就是胚胎干細(xì)胞,給東西,可以做很多事情,他去做各式各樣的任務(wù),就是fine-tune,其實(shí)就是微調(diào),
這些就是bert的實(shí)際測(cè)試的任務(wù)
表現(xiàn)都是上升的
這里面,liner的參數(shù)是隨機(jī)初始化的,然后bert的參數(shù)是從學(xué)習(xí)了填空的預(yù)訓(xùn)練以后得到的。
至于為什么把會(huì)填空的bert拿過(guò)來(lái),因?yàn)樾Ч?#xff0c;(就是好,但是不知道為啥)
下面是用不用訓(xùn)練好的bet模型的差距,前面是預(yù)訓(xùn)練的,后面的是隨機(jī)初始化的,
下游是semi-supervised : pre-training + fine-tune
案例二: 詞性分析
案例三: 給定一個(gè)前提,給定一個(gè)結(jié)果,讓你推斷,前提能否得出結(jié)果
bert是怎么做的
不取cls取任何一個(gè)輸出理論上都是可以的,bert里面結(jié)構(gòu)都是self-attention,都是互相關(guān)聯(lián)的
案例五:QA
bert計(jì)算的 蘋(píng)果 和蘋(píng)果手機(jī),其實(shí)是考慮了上下文的
每個(gè)向量可以理解成,每一個(gè)詞的意思
總結(jié)
以上是生活随笔為你收集整理的李宏毅 bert 讲解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: npm 无法将“npm”项识别为 cmd
- 下一篇: 国际知名投资者法律顾问ROSEN鼓励Ta