當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

李宏毅 bert 讲解

發布時間：2023/12/8 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了李宏毅 bert 讲解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

bert就是transformer的encoder

輸入seq，輸出seq

先決定蓋哪幾個，再決定怎么蓋

然后輸出

輸出的就是一個向量，里面就是詞典所有的單詞的概率（是嗎）

然后跟我那個真實值，最小化，（就是一個分類問題），訓練的時候，bert里面的參數和我們那個liner的參數一起訓練。

除了上述的mask之外，還會預測下一個句子
這個輸出的yes或者or，意思就是我這兩個句子是不是相接的，后來說這個方法其實沒有什么用。

然后就是bert其實它的作用就是填空，但是他卻可以使用在其他的任務上，這些任務叫做下游任務（downstream tasks），

就是胚胎干細胞，給東西，可以做很多事情，他去做各式各樣的任務，就是fine-tune，其實就是微調，

表現都是上升的

這里面，liner的參數是隨機初始化的，然后bert的參數是從學習了填空的預訓練以后得到的。

至于為什么把會填空的bert拿過來，因為效果好，（就是好，但是不知道為啥）

下面是用不用訓練好的bet模型的差距，前面是預訓練的，后面的是隨機初始化的，

下游是semi-supervised ： pre-training + fine-tune

案例二：詞性分析

案例三：給定一個前提，給定一個結果，讓你推斷，前提能否得出結果

bert是怎么做的

不取cls取任何一個輸出理論上都是可以的，bert里面結構都是self-attention，都是互相關聯的

案例五：QA

bert計算的蘋果和蘋果手機，其實是考慮了上下文的

每個向量可以理解成，每一個詞的意思

以上是生活随笔為你收集整理的李宏毅 bert 讲解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。