李宏毅 bert 讲解
原始bert是干嘛的
bert就是transformer的encoder
輸入seq,輸出seq
先決定蓋哪幾個,再決定怎么蓋
展示原始的bert
然后輸出
輸出的就是一個向量,里面就是詞典所有的單詞的概率(是嗎)
里面的linear怎么做的(小參數)
然后跟我那個真實值,最小化,(就是一個分類問題),訓練的時候,bert里面的參數和我們那個liner的參數一起訓練。
工作2(好像沒啥用)
除了上述的mask之外,還會預測下一個句子
這個輸出的yes或者or,意思就是我這兩個句子是不是相接的,后來說這個方法其實沒有什么用。
然后就是bert其實它的作用就是填空,但是他卻可以使用在其他的任務上,這些任務叫做下游任務(downstream tasks),
下游任務–微調
就是胚胎干細胞,給東西,可以做很多事情,他去做各式各樣的任務,就是fine-tune,其實就是微調,
這些就是bert的實際測試的任務
表現都是上升的
這里面,liner的參數是隨機初始化的,然后bert的參數是從學習了填空的預訓練以后得到的。
至于為什么把會填空的bert拿過來,因為效果好,(就是好,但是不知道為啥)
下面是用不用訓練好的bet模型的差距,前面是預訓練的,后面的是隨機初始化的,
下游是semi-supervised : pre-training + fine-tune
案例二: 詞性分析
案例三: 給定一個前提,給定一個結果,讓你推斷,前提能否得出結果
bert是怎么做的
不取cls取任何一個輸出理論上都是可以的,bert里面結構都是self-attention,都是互相關聯的
案例五:QA
bert計算的 蘋果 和蘋果手機,其實是考慮了上下文的
每個向量可以理解成,每一個詞的意思
總結
以上是生活随笔為你收集整理的李宏毅 bert 讲解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: npm 无法将“npm”项识别为 cmd
- 下一篇: 国际知名投资者法律顾问ROSEN鼓励Ta