日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?

發布時間:2023/11/22 综合教程 51 生活家
生活随笔 收集整理的這篇文章主要介紹了 支持108种语言的谷歌翻译如何用AI让翻译质量越来越好? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  谷歌表示,在提高語言翻譯的質量方面,已經取得了進展。在即將發表的博客文章中,該公司詳細介紹了新的創新技術,這些創新技術增強了 Google 翻譯(Google Translate)支持的 108 種語言(特別是數據貧乏的約魯巴語和馬拉雅拉姆語)的用戶體驗,該服務平均每天翻譯 1500 億個單詞。

  自谷歌翻譯首次公開亮后的 13 年間,諸如神經機器翻譯、基于重寫的范例和本地處理之類的技術使該平臺的翻譯準確性有了可量化的飛躍。但是直到最近,翻譯的最新算法表現也落后于人類。Google 之外的努力也說明了問題的難度,Masakhane 項目旨在使非洲大陸上的數千種語言能夠自動翻譯,但它還沒有超出數據收集和轉錄階段。共同的聲音(雷鋒網(公眾號:雷鋒網)注,Common Voice 是 Mozilla 發起的一個眾包項目,旨在為語音識別軟件創建免費的數據庫)自 2017 年 6 月推出以來,Mozilla 為建立轉錄語音數據的開源集合所做的努力僅審查了 40 種聲音。

  谷歌表示,其翻譯質量的突破并不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在 2019 年 5 月至 2020 年 5 月之間,通過人工評估和 BLEU(一種基于系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,谷歌翻譯在所有語言中平均提高了 5 分或更多,在 50 種最低水平的翻譯中平均提高了 7 分或更多。此外,谷歌表示,“翻譯”對機器翻譯聯想的功能變得更加強大,一種現象是,當給泰盧固語字符“??????”輸入,“Shenzhen Shenzhen Shaw International Airport (SSH)”)時,AI 模型會產生奇怪的翻譯“Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”。

  混合模型和數據挖掘器

  這些技術中的第一個是翻譯模型體系結構——一種混合體系結構,包含在 Lingvo(用于序列建模的 TensorFlow 框架)中實現的 Transformer 編碼器和遞歸神經網絡(RNN)解碼器。

  在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示,然后解碼器將其用于生成所需語言的文本。谷歌相關研究人員于 2017 年首次提出的基于 Transformer 模型在此方面比 RNN 更為有效,但谷歌表示其工作表明大部分質量提升僅來自于 Transformer 的一個組成部分:編碼器。那可能是因為雖然 RNN 和 Transformer 都被設計為處理有序的數據序列,但是 Transformers 并不需要按順序處理序列。換句話說,如果所討論的數據是自然語言,則 Transformer 無需在處理結尾之前處理句子的開頭。

  盡管如此,在推理時,RNN 解碼器仍比“Transformer”中的解碼器“快得多”。意識到這一點,Google Translate 團隊在將 RNN 解碼器與 Transformer 編碼器結合之前對 RNN 解碼器進行了優化,以創建低延遲、質量更高,比四年前基于 RNN 的神經機器翻譯模型更穩定的混合模型進行替代。

  圖:自 2006 年成立以來,Google 翻譯模型的 BLEU 得分。(圖片來源:Google)

  除了新穎的混合模型體系結構之外,Google 還從數以百萬計的示例翻譯中(用于文章、書籍、文檔和 Web 搜索結果)編譯了用于編譯訓練集的數十年歷史的爬蟲。新的翻譯器基于嵌入的 14 種主流語言,而不是基于字典的-意味著它使用實數矢量表示單詞和短語-更加注重精度(相關數據在檢索到的數據中所占的比例)想到(實際檢索到的相關數據總量的一部分)。谷歌表示,在使用過程中,這使翻譯器提取的句子數量平均增加了 29%。

  有噪音的數據和轉移學習

  另一個翻譯性能提升來自更好地處理訓練數據中噪聲的建模方法。觀察到有噪聲的數據(含有大量無法正確理解或解釋的大量信息的數據)會損害語言的翻譯,因此 Google 翻譯團隊部署了一個系統,該系統使用經過訓練的模型為示例分配分數對嘈雜的數據進行調優,并對“干凈的”數據進行調優。實際上,這些模型開始對所有數據進行訓練,然后逐步對較小和較干凈的子集進行訓練,這是 AI 研究社區中稱為課程學習的方法。

  在資源匱乏的語言方面,Google在翻譯中實施了反向翻譯方案,以增強并行訓練數據,該語言中的每個句子都與其翻譯配對。(機器翻譯傳統上依賴于源語言和目標語言中成對句子的語料統計)在這種方案中,訓練數據會自動與合成并行數據對齊,從而目標文本是自然語言,但會生成源通過神經翻譯模型。結果是谷歌翻譯利用了更豐富的單語文本數據來訓練模型,Google 表示這對于提高流利性特別有用。

  圖:帶有翻譯功能的 Google Maps。

  谷歌翻譯現在還利用了 M4 建模,其中一個大型模型 M4 在多種語言和英語之間進行翻譯。(M4 是于去年在一篇論文中首次提出,證明它在訓練了 100 多種語言中的 250 億對句子對之后,提高了 30 多種低資源語言的翻譯質量。)M4 建模使谷歌翻譯中的遷移學習成為可能,收集了包括法語、德語和西班牙語(有數十億個并行示例)的高資源語言進行訓練提升了表現,從而可以應用于翻譯諸如約魯巴語、信德語和夏威夷語(僅有數萬個示例)的低資源語言。

  展望未來

  根據 Google 的說法,自 2010 年以來,翻譯每年至少提高了 1 個 BLEU 點,但是自動機器翻譯絕不能解決問題。Google 承認,即使是其增強的模型也容易出錯,包括將一種語言的不同方言混淆,產生過多的直譯,以及在特定題材和非正式或口頭語言上的表現不佳。

  微軟試圖通過各種方式解決這一問題,包括通過其谷歌翻譯社區計劃(Google Translate Community)來招募志愿者,通過翻譯單詞和短語或檢查翻譯是否正確來幫助提高低資源語言的翻譯質量。僅在 2 月份,該程序與新興的機器學習技術相結合,就增加了翻譯,共有 7500 萬人使用了五種語言:Kinyarwanda、Odia(奧里亞語)、Tatar、Turkmen 和 Uyghur(維吾爾語)。

  追求真正通用翻譯的并不只有 Google。在 2018 年 8 月,Facebook公開了一種 AI 模型,該模型結合了逐詞翻譯,語言模型和反向翻譯的組合,在語言配對方面表現更好。最近,麻省理工學院計算機科學與人工智能實驗室的研究人員提出了一種無監督的模型,即可以從未明確標記或分類的測試數據中學習的模型,該模型可以在兩種語言的文本之間進行翻譯,而無需在兩種語言之間直接進行翻譯。

  谷歌在一份聲明中以外交方式表示,它對“學術界和工業界”的機器翻譯研究表示感謝,其中一些通報了自己的工作。該公司表示:“我們通過綜合和擴展各種最新進展來實現(谷歌翻譯最近的改進)。通過此更新,我們為提供相對一致的自動翻譯而感到自豪,即使是在支持的 108 種語言中資源最少的情況下也是如此。”

總結

以上是生活随笔為你收集整理的支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。