當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

对偶学习

發布時間：2024/3/12 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了对偶学习小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

考慮一個對偶翻譯游戲，里面有兩個玩家小明和愛麗絲，如下圖所示。小明只能講中文，愛麗絲只會講英文，他們兩個人一起希望能夠提高英文到中文的翻譯模型f和中文到英文的翻譯模型g。給定一個英文的句子x，愛麗絲首先通過f把這個句子翻譯成中文句子y1，然后把這個中文的句子發給小明。因為沒有標注，所以小明不知道正確的翻譯是什么，但是小明可以知道，這個中文的句子是不是語法正確、符不符合中文的語言模型，這些信息都能幫助小明大概判斷翻譯模型f是不是做的好。然后小明再把這個中文的句子y1通過翻譯模型g翻譯成一個新的英文句子x1，并發給愛麗絲。通過比較x和x1是不是相似，愛麗絲就能夠知道翻譯模型f和g是不是做得好，盡管x只是一個沒有標注的句子。因此，通過這樣一個對偶游戲的過程，我們能夠從沒有標注的數據上獲得反饋，從而知道如何提高機器學習模型。

實際上這個對偶游戲和強化學習的過程比較類似。在強化學習中，我們希望提高我們的策略以最大化長遠的回報，但是沒有標注的樣本告訴我們在某個狀態x哪個動作y是正確的。我們只有通過使用這個策略在不同的狀態下執行不同的動作，觀測該動作帶來的回報，從而改善我們的策略。在以上這個翻譯對偶游戲中，兩個翻譯模型就是我們的策略，因為沒有標注的雙語句對，所以我們不能直接改善它們。這個對偶游戲把一個沒有標注的句子x，先翻譯成另外一種語言的句子y1，再翻譯回來為x1，這里x就是強化學習中的狀態，y1和x1就是我們的策略所執行的動作，x和x1的相似度就是我們獲得的回報。

我們可以用已有的強化學習的算法來訓練我們這兩個翻譯模型，比如策略梯度方法。策略梯度方法的基本思想非常簡單：如果我們在執行某個動作之后，觀測到了一個很大的回報，我們就通過調整策略（在當前策略函數的參數上加上它的梯度）來增加這個狀態下執行這個動作的概率；相反，如果我們在執行某個動作之后，觀測到了一個很小的回報，甚至是負的回報，那么我們就需要調整策略（在當前策略函數的參數上減去它的梯度），以降低在這個狀態下執行這個動作的概率。

實測與展望

我們在一個英語-法語翻譯的公共數據集上測試了對偶學習的有效性，并和當前最好的算法（NMT，基于深度神經網絡算法）進行了對比。這個數據集的訓練集有1200萬個英法的雙語句對，NMT用了所有的1200萬個雙語句對訓練模型。我們的對偶算法只用了不到10%的雙語句對初始化兩個翻譯模型f和g，再用沒有標注的英法語句進行訓練。如下圖所示，我們的對偶學習算法只用10%的標注數據就達到了和NMT用上所有標注數據而取得的相似的甚至更好的翻譯準確度，也就是說我們可以把數據標注的代價從2000萬美元降到200萬美元左右。這個結果說明了我們提出的對偶學習方法能夠非常有效地利用未標注的數據。

對偶學習的基本思想是兩個對偶的任務能形成一個閉環反饋系統，使我們得以從未標注的數據上獲得反饋信息，進而利用該反饋信息提高對偶任務中的兩個機器學習模型。該思想具有普適性，可以擴展到多個相關任務上面，前提是只要它們能形成一個閉環反饋系統。例如，從中文翻譯到英文，然后從英文翻譯到日文，再從日文翻譯到中文。另外一個例子是從圖片轉化成文字，然后從文字轉成語音，再從語音轉化成圖片。

對偶學習（dual learning）和已有的學習范式有很大的不同。首先，監督學習（supervised learning）只能從標注的數據進行學習，只涉及一個學習任務；而對偶學習涉及至少兩個學習任務，可以從未標注的數據進行學習。其次，半監督學習（semi-supervised learning）盡管可以對未標注的樣本生成偽標簽，但無法知道這些偽標簽的好壞，而對偶學習通過對偶游戲生成的反饋（例如對偶翻譯中x和x1的相似性）能知道中間過程產生的偽標簽（y1）的好壞，因而可以更有效地利用未標注的數據。我們甚至可以說，對偶學習在某種程度上是把未標注的數據當作帶標簽的數據來使用。第三，對偶學習和多任務學習（multi-task learning）也不相同。盡管多任務學習也是同時學習多個任務共的模型，但這些任務必須共享相同的輸入空間，而對偶學習對輸入空間沒有要求，只要這些任務能形成一個閉環系統即可。第四，對偶學習和遷移學習（transfer learning）也很不一樣。遷移學習用一個或多個相關的任務來輔助主要任務的學習，而在對偶學習中，多個任務是相互幫助、相互提高，并沒有主次之分。因此，對偶學習是一個全新的學習范式，我們預計其會對機器學習領域產生很大的影響，特別是考慮到以下兩個點。

第一，很多深度學習的研究人員認為人工智能和深度學習的下一個突破是從未標注的數據進行學習。由于未標注的數據沒有標簽信息，無監督學習主要聚焦在聚類、降維等問題，因此，如何從未標注的數據進行端到端的學習（把數據映射到標簽，如分類、預測等任務）一直沒有很好方法。我們提出的對偶學習提供了一個利用未標注數據進行端到端學習的有效方式。

第二，近年來強化學習取得了很大的成功，吸引了眾多的研究人員和工業界人員的關注。但是到目前為止，強化學習的成功主要是在各種游戲上，因為在游戲中規則定義得非常清楚，并且很容易通過玩大量的游戲獲取回報信息（例如Atari游戲中每一步的得分，圍棋中最后的輸贏），從而改善游戲策略。然而在游戲以外的實際應用中并沒有規范定義的規則，也很難獲得回報信息（或者獲取的代價很高），因而強化學習在復雜的實際應用中的成功還是比較有限。而對偶學習提供了一種為強化學習獲取獎勵信息的方式，并證實了強化學習在復雜應用（如翻譯）中成功的可能。

總結

以上是生活随笔為你收集整理的对偶学习的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

对偶

上一篇： 12岁“乖乖女”出走后割腕欲轻生警方3
下一篇：熊猫烧香李俊涉嫌开设赌场罪被再度批捕