揭秘阿里机器翻译团队:拿下5项全球冠军,每天帮商家翻译7.5亿次
摘要:?跨境電商市場越來越大,商家們也遇到了新問題。以阿里巴巴國際站為例,七成買家以英語溝通,剩下三成的小語種,卻難住了平臺上近96%的賣家。 “翻譯和本地化都做不好,說明你對海外市場根本不重視,還想怎么品牌出海?”一米八大高個(gè)的李兮芝,語速極快,說話從不繞彎。
跨境電商市場越來越大,商家們也遇到了新問題。以阿里巴巴國際站為例,七成買家以英語溝通,剩下三成的小語種,卻難住了平臺上近96%的賣家。
“翻譯和本地化都做不好,說明你對海外市場根本不重視,還想怎么品牌出海?”一米八大高個(gè)的李兮芝,語速極快,說話從不繞彎。
李兮芝是阿里巴巴國際貿(mào)易事業(yè)部(ICBU)阿里語言服務(wù)總經(jīng)理,對商家的痛點(diǎn)了如指掌。講到最棘手的案例,他會立刻站起來,抄起一支筆,在會議室的白板上演示一番。
阿里巴巴國際站用戶溝通語言現(xiàn)狀
坐在李兮芝一旁的駱衛(wèi)華,語速要慢許多。2014年1月,中科院計(jì)算所出身的駱衛(wèi)華,加入了阿里,如今是阿里巴巴達(dá)摩院翻譯平臺負(fù)責(zé)人。
今年5月,在全球機(jī)器翻譯領(lǐng)域影響最大、水平最高的WMT2018評測中,駱衛(wèi)華帶領(lǐng)的翻譯技術(shù)團(tuán)隊(duì)一舉拿下5個(gè)語言方向的冠軍,成為比賽的最大贏家。
與谷歌、微軟、百度等做不區(qū)分場景的通用翻譯不同,阿里選擇在電商場景的翻譯上發(fā)力。目前,阿里機(jī)器翻譯已支持21個(gè)語種的48個(gè)語言方向的翻譯,日均使用量已達(dá)到7.5億次。除了支持離線及文字翻譯,還支持實(shí)時(shí)語音、圖片以及視頻翻譯,應(yīng)用于阿里巴巴國際站、速賣通、LAZADA、菜鳥、阿里云、釘釘、飛豬等40多個(gè)業(yè)務(wù)部門。
“首先在電商場景下,我們要把機(jī)器翻譯做到最好。”駱衛(wèi)華說,但在未來將不局限于電商翻譯。
沒有硝煙的“軍備競賽”
《圣經(jīng)》舊約中,人類曾聯(lián)合起來搭建通往天堂的高塔,上帝為了阻止這一計(jì)劃,讓人類說上不同的語言。沒過多久,無法溝通的人類便四散而去。
回溯機(jī)器翻譯的源頭,不難發(fā)現(xiàn),這是一場為了再造《圣經(jīng)》中“通天塔”而展開的“軍備競賽”。
冷戰(zhàn)時(shí)期,蘇聯(lián)和美國的科學(xué)家就曾在機(jī)器翻譯上有過幾番較量。當(dāng)時(shí),機(jī)器翻譯領(lǐng)域的主角是懂得英俄雙語的語言學(xué)家,他們試圖為計(jì)算機(jī)編寫出一套雙語規(guī)則。“但問題是,規(guī)則和規(guī)則之間存在大量沖突,在實(shí)際應(yīng)用中會出現(xiàn)大量異常情況。”
駱衛(wèi)華說,很長一段時(shí)間,機(jī)器翻譯都被局限在編寫規(guī)則的泥淖中,直到上世紀(jì)90年代,才被IBM Watson研究中心提出的統(tǒng)計(jì)機(jī)器翻譯所取代,程序員開始取代語言學(xué)家,站上了機(jī)器翻譯領(lǐng)域的主舞臺。
2014年,蒙特利爾大學(xué)計(jì)算機(jī)系博士后Kyunghyun Cho等人關(guān)于將人工智能底層模型“神經(jīng)網(wǎng)絡(luò)”應(yīng)用于機(jī)器翻譯的論文,又一次吹響了翻譯技術(shù)革命的號角。這一年,各大互聯(lián)網(wǎng)公司開始大舉投入,諸多優(yōu)秀的學(xué)者和學(xué)生陸續(xù)加入谷歌、亞馬遜、臉譜和BAT。
在中科院學(xué)習(xí)和工作近12年的駱衛(wèi)華,在“糾結(jié)一段時(shí)間后”,也決定跳出學(xué)術(shù)圈,選擇加入阿里,去實(shí)現(xiàn)將技術(shù)真正落地的夢想。“以前在實(shí)驗(yàn)室的主要任務(wù)是發(fā)paper(論文),做課題,只有這個(gè)領(lǐng)域的人才會關(guān)心,但現(xiàn)在每天有幾千萬人在實(shí)際使用你的產(chǎn)品,這種感覺是完全不一樣的。”
2014年,駱衛(wèi)華加入阿里
不同于大多數(shù)在通用翻譯領(lǐng)域廝殺的玩家,阿里機(jī)器翻譯團(tuán)隊(duì)以核心電商場景為起點(diǎn),為整個(gè)國際化業(yè)務(wù)提供本地化解決方案。
“項(xiàng)目很多,得排期。比如,2、3月做釘釘?shù)捻?xiàng)目,4、5月要做速賣通項(xiàng)目。”駱衛(wèi)華說,除此之外,團(tuán)隊(duì)還會時(shí)不時(shí)會接到十萬火急的需求。比如,去年雙11之后,團(tuán)隊(duì)曾用兩個(gè)星期,與菜鳥團(tuán)隊(duì)一起加班加點(diǎn)編寫了一套報(bào)關(guān)自動翻譯產(chǎn)品,“后來菜鳥評估說,整個(gè)報(bào)關(guān)成本下降了90%。”
難的不止是翻譯
說到機(jī)器翻譯,除了算法模型,大量的樣本數(shù)據(jù)是非常重要的。這也恰恰是阿里的優(yōu)勢所在。
“舉個(gè)例子,‘Photo Print’這個(gè)詞在通用語境下會被翻成‘照片打印’,但你知道它在紡織面料行業(yè)里是什么意思嗎?”李兮芝接著說,“這是‘熱轉(zhuǎn)印印花’工藝的一種,翻成照片打印就貽笑大方了。”
阿里本身沉淀了大量電商領(lǐng)域相關(guān)的數(shù)據(jù),機(jī)器翻譯團(tuán)隊(duì)進(jìn)一步梳理出10億級別的雙語平行語料、億級別的電商雙語平行語料、千萬級電商知識庫,以及大規(guī)模行業(yè)多語言術(shù)語庫。
然而,語言上的準(zhǔn)確翻譯只是第一道難關(guān),更困難的是通過算法實(shí)現(xiàn)文化、法律、經(jīng)濟(jì)、宗教等層面的本地化落地。
一個(gè)案例讓李兮芝印象深刻。“同樣是10萬,英美國家千位分隔符用逗號,標(biāo)成‘100,000’;但法國、西班牙的千位分隔符是句號,逗號用來標(biāo)小數(shù)點(diǎn),10萬在法國得標(biāo)成‘100.000’,如果標(biāo)成‘100,000’就表示是100了。”這類大額數(shù)字在阿里巴巴國際站經(jīng)常出現(xiàn),曾經(jīng)出現(xiàn)過中國賣家因?yàn)闆]有將數(shù)字本地化,而被買家投訴的情況。
阿里巴巴ICBU語言服務(wù)總經(jīng)理李兮芝
今年4月,主打男裝的國內(nèi)服飾品牌英爵倫,加入了阿里旗下的東南亞電商平臺Lazada上的“淘寶精選”(Taobao Collection)計(jì)劃。Lazada通過自動抓取天貓店的產(chǎn)品,幫助品牌拓展東南亞市場。“我們天貓店商品標(biāo)題是全中文的,沒想到Lazada能自動翻譯成英文。”英爵倫跨境電商負(fù)責(zé)人劉晨芳說,“最重要的是,機(jī)器自動翻譯的英文品牌名‘Enjeolon’,和我們真實(shí)的英文名分毫不差,太神奇了。”
英爵倫發(fā)現(xiàn),品牌名英文名翻得分毫不差
劉晨芳不知道的是,Lazada這套自動翻譯系統(tǒng)也是由阿里巴巴機(jī)器智能翻譯團(tuán)隊(duì)開發(fā)出來的。翻譯系統(tǒng)還改寫了標(biāo)題,讓產(chǎn)品描述看上去更加接地氣。
“淘系商品標(biāo)題沒有固定格式,由N個(gè)熱搜詞組成,但不是一個(gè)完整的句子。要是直接翻譯,海外消費(fèi)者壓根看不懂。”李兮芝說,這種沒有上下文信息的標(biāo)題翻譯,不論對人還是對機(jī)器,都是極大的挑戰(zhàn)。“我們曾經(jīng)找來專業(yè)人工譯員翻譯標(biāo)題,結(jié)果譯員翻到一半不干了,根本看不懂。”
后來,團(tuán)隊(duì)通過融合多種自然語言處理和文本生成技術(shù),攻下了商品標(biāo)題改寫的難題。像英爵倫這樣的中國品牌,不用擔(dān)心Lazada上的東南亞買家會因?yàn)榭床欢畼?biāo)題,而放棄購買商品。
今年5月,阿里巴巴正式上線對話實(shí)時(shí)翻譯功能,這也是全球電商領(lǐng)域的首個(gè)實(shí)時(shí)翻譯AI產(chǎn)品。“無障礙的跨語言溝通明顯增加了阿里巴巴國際站的用戶粘性。我們期望賣家不再需要為了做某一個(gè)國家的生意而專門聘請會那國語言的專職人員。”李兮芝說。除了用戶體驗(yàn)的提高,阿里機(jī)器翻譯還為旗下國際電商平臺帶來了明顯的流量、轉(zhuǎn)化率和購買率增長。
阿里巴巴實(shí)時(shí)翻譯系統(tǒng)
“機(jī)器翻譯是塊非常難啃的骨頭。但如果我們真要實(shí)現(xiàn)全球買、全球賣,就必須要花精力去做。”李兮芝說。
解放,而非替代人工翻譯?
今年5月23日,WMT2018國際機(jī)器翻譯大賽,首次參賽的阿里巴巴達(dá)摩院機(jī)器智能-NLP翻譯團(tuán)隊(duì)拿下5項(xiàng)冠軍,包括英文-中文翻譯、英文-俄羅斯語互譯和英文-土耳其語互譯項(xiàng)目。
阿里巴巴達(dá)摩院機(jī)器智能-NLP翻譯團(tuán)隊(duì)
作為全球最具權(quán)威、已舉辦13次的機(jī)器翻譯大賽,WMT(Workshop on Machine Translation)成為了各大科技公司和學(xué)術(shù)機(jī)構(gòu)的競技場。2018年的大賽競爭格外激烈,吸引了霍普金斯大學(xué)、愛丁堡大學(xué)、微軟、阿里、騰訊、小牛翻譯等幾十個(gè)機(jī)器翻譯團(tuán)隊(duì)參與。
“WMT大賽的文本主要是新聞題材,參賽團(tuán)隊(duì)要在截止日期內(nèi)上傳機(jī)器翻譯的成果。”駱衛(wèi)華說。競爭很激烈,整個(gè)行業(yè)提升也特別快,例如在競爭最激烈的英中翻譯任務(wù),去年最好的成績在今年可能已經(jīng)排不到前幾名了。
“中英翻譯還好,起碼我們知道哪里翻得有問題。但像土耳其、俄羅斯語這樣的小語種,我們完全看不懂,只能完全拼算法、拼模型。”駱衛(wèi)華說,在小語種機(jī)器翻譯領(lǐng)域,以前一直是由國外的公司與科研機(jī)構(gòu)一直保持領(lǐng)先地位。“小語種的雙語語料是很稀缺的,但阿里全球化的目標(biāo)要求我們必須從技術(shù)層面做突破,用更少的數(shù)據(jù),在專業(yè)領(lǐng)域上翻得更準(zhǔn)確。”
談到機(jī)器翻譯和人工翻譯的關(guān)系,駱衛(wèi)華和李兮芝都贊同一個(gè)觀點(diǎn):阿里的機(jī)器翻譯最終的目的,不是為了替代專業(yè),而是為了解放專業(yè)的人工翻譯。
隨著機(jī)器翻譯技術(shù)的不斷突破,傳統(tǒng)人工翻譯正逐漸變?yōu)橐粋€(gè)“搬磚”行業(yè),充斥著大量重復(fù)低效的勞動。“1995年,翻譯一篇1000字的中到英文本,譯員的收入可達(dá)600元人民幣。”李兮芝說,但在今天,同樣字?jǐn)?shù)的文本,甚至低到只有50元的收入。
低廉的人工翻譯報(bào)酬,正在把專業(yè)譯員推向價(jià)格更高的專業(yè)技術(shù)翻譯領(lǐng)域。然而,這些領(lǐng)域的文本,由大量專業(yè)術(shù)語和范式行文構(gòu)成。“人類不擅長記憶專業(yè)詞匯,但機(jī)器擅長。”李兮芝說,人工翻譯的長處在于“創(chuàng)造性的智慧”,以及對文化背景的深刻了解。“翻譯講究信達(dá)雅,機(jī)器目前最多能做到‘信’和‘達(dá)’,像文學(xué)翻譯、口語俚語、本地化的慣用表達(dá)等等,還是需要人工翻譯。”駱衛(wèi)華說。
今年1月,阿里巴巴國際站向平臺所有供應(yīng)商,免費(fèi)開放了一款A(yù)I實(shí)時(shí)翻譯系統(tǒng)。商家輸入的語音或文字,能自動轉(zhuǎn)變?yōu)榉g好的目標(biāo)文本。為了增強(qiáng)翻譯的準(zhǔn)確性,加入人工修正的干預(yù)功能。比如,商家如果有更地道的表達(dá)方式,可以進(jìn)行翻譯訂正,以彌補(bǔ)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)現(xiàn)階段存在的問題。
下一步,阿里機(jī)器翻譯在迭代優(yōu)勢電商場景的同時(shí),還將向新的領(lǐng)域拓展,同時(shí)完善產(chǎn)品矩陣,支持文本、語音和圖像等多模態(tài)翻譯,并最終對外開放API。“我們希望把阿里巴巴全球化過程中的經(jīng)驗(yàn)沉淀下來,最后打包輸出,賦能給整個(gè)社會。讓商業(yè)沒有語言障礙,讓天下沒有難做的生意。”李兮芝說。
總結(jié)
以上是生活随笔為你收集整理的揭秘阿里机器翻译团队:拿下5项全球冠军,每天帮商家翻译7.5亿次的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 云端一体化差分+安全升级,AliOS T
- 下一篇: 探秘盒马机器人餐厅:老外目瞪口呆,90岁