日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

李宏毅机器学习(九)Multi-lingual BERT

發布時間:2024/7/5 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 李宏毅机器学习(九)Multi-lingual BERT 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Multi-lingual BERT

輸入多種語言來訓練BERT

Zero-shot Reading Comprehension

首先模型是在104種語言上進行訓練的!
并且以English的QA來training我們的模型,最后在回答問題的時候使用中文!

可以看到如果在104種語言pre-train,然后在Chinese+English上進行fine-tune得到的準確率是最高的!而兩者均在Chinese上訓練,得到的結果卻不是很好! 這就是Multi-lingual 的神奇之處!

這里行坐標是在哪個語言上訓練,列坐標是在哪個語言上測試! 所以下面的都是硬Train的,就是看模型懂不懂語言上的跨度!

其它的證據也有很多,也能證明在一個語言上訓練,其它語言上同樣有效

Cross-Lingual Alignment?

為什么跨語言模型對齊能夠成功?

說明在word embedding上,兩個語言的嵌入是相近的!

真的會嵌入到相同的位置嗎?

我們通過計算兩個詞匯的相似度,rank的意思是第幾個才是正確的答案! 最后取平均!

在不同的語言上進行實驗我們的模型,后面的幾百幾千k是資料數! 會發現模型的效果很大程度上依賴于詞匯量; 但是在控制詞匯量之后,會發現有的模型即使詞匯量很大,也難以達到像BERT一樣的效果!

How alignment happens?

但是為什么模型就能讓他們有更加近的vector的距離呢?

  • Typical answer

第一種解釋是兩種語言中有一些公用的tokens,比如數字、發音; 再比如中文和應為中語言X有相似的tokens

  • 第二種解釋
  • 我們將English中的單詞轉化為fake-english作為輸入,這樣兩者就不存在common Tokens,再去看實現效果! 比如紅框里面,pre-train、trian和test后結果還是很好的!
  • 這是一個尚待研究的問題

Sounds weird?

我們已經知道的就是兩者的token embedding肯定是相近的。 這里面肯定有語言信息

不同語言的平均還是有差異的!

語言的平均用來相加
我們計算兩種語言(平均)的差異,我們的假設是可能一種語言在另一種語言的同一側!
那么我們用兩者之間的差異,加到一種語言上,那么會得到另一種語言!

這確實是有用的,我們加上兩倍的,三倍的藍色的向量后會發現文字全部翻譯成了中文! 雖然在翻譯上是問題的,但是說明語言信息的存在性

下面的例子中常規的測試,只是加入了藍色的向量,會發現效果會變好!

**GAN里面有相似的**:

先求短發的平均,再求長發的平均,短發加(長發和短發之間的距離)就是本人的長發模樣

總結

以上是生活随笔為你收集整理的李宏毅机器学习(九)Multi-lingual BERT的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。