日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的

發(fā)布時間:2024/3/13 编程问答 55 豆豆
生活随笔 收集整理的這篇文章主要介紹了 黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

對國際化企業(yè)來說語言問題是亟待突破的重要關(guān)口。面對海量的文本翻譯任務(wù),昂貴低效的人工翻譯顯然不能滿足需求,利用計算機自動進行文本翻譯的機器翻譯才是解決這個問題的關(guān)鍵。阿里翻譯團隊在機器翻譯領(lǐng)域做了大量技術(shù)儲備,并針對我們所處的電子商務(wù)領(lǐng)域進行算法優(yōu)化,進而打造阿里巴巴自己的機器翻譯平臺。

目前阿里翻譯API已經(jīng)正式上線阿里云平臺,讓所有的阿里云用戶可以申請使用阿里翻譯的最新技術(shù)成果啦,今天就讓我們一起進入機翻黑科技時間-解密阿里翻譯。

1、阿里翻譯支持的業(yè)務(wù)場景

阿里翻譯積極助力集團國際化、全球化業(yè)務(wù),不僅在電商業(yè)務(wù)場景有著扎實的積累和優(yōu)質(zhì)的服務(wù)能力,同時也在不斷拓展創(chuàng)新業(yè)務(wù)場景,借助AI技術(shù)賦能產(chǎn)品和服務(wù)。

目前已為集團內(nèi)十幾條業(yè)務(wù)線提供機器翻譯和本地化支持,覆蓋了Alibaba.com 、 AliExpress 、 Lazada 、釘釘、阿里云、優(yōu)酷、支付寶、菜鳥、天貓精靈、高德、飛豬等眾多產(chǎn)品。

1.1跨境電商解決方案

阿里機器翻譯深入剖析“網(wǎng)站/APP本地化”、“引流拉新”、“到站搜索”、“用戶轉(zhuǎn)化”、“支付物流”、“留存復(fù)購”等全鏈路環(huán)節(jié),提供多類的翻譯和語言服務(wù),積極提升業(yè)務(wù)價值。

以下是部分鏈路環(huán)節(jié)介紹:

1.1.1搜索翻譯

跨境電商中目前搜索引擎主要基于英文做索引,需要將本地用戶輸入的搜索詞進行語種識別然后再翻譯成英文,通過英文進行索引匹配,返回搜索結(jié)果,這是保障多語言流量轉(zhuǎn)化率的關(guān)鍵環(huán)節(jié),直接影響多語言電商GMV。

除跨語言搜索翻譯外,目前阿里翻譯在搜索自動化上支持完整的人工解決方案,能夠針對電商平臺高流量top search query快速提供人工語種識別&翻譯結(jié)果,干預(yù)生效,同時挖掘搜索業(yè)務(wù)低轉(zhuǎn)化的badcase search query并快速人工修正翻譯結(jié)果的能力,快速提升轉(zhuǎn)化指標(biāo)。

1.1.2商品翻譯

跨境電商中需要對全站商品信息進行多語言化,包括商品標(biāo)題、商品詳情、商品評論等內(nèi)容進行翻譯。其中商品標(biāo)題是用戶獲取商品信息的重要途徑,在商品標(biāo)題翻譯場景上,通過對源語言是中文或者英文的標(biāo)題進行NER識別,并根據(jù)不同業(yè)務(wù)方的業(yè)務(wù)規(guī)則對識別后的標(biāo)題根據(jù)成分進行重新改寫生成,改寫后再翻譯成目標(biāo)語種。對商品的購買轉(zhuǎn)換率有非常重要的影響。

商品詳情是用戶閱讀商品信息的主要內(nèi)容,包括商品屬性、商品描述等信息,商品屬性是商品的關(guān)鍵信息,機器翻譯系統(tǒng)會通過翻譯記憶將關(guān)鍵信息進行高質(zhì)量存儲提高翻譯準(zhǔn)確率,這部分內(nèi)容能夠幫助用戶更好的了解商品各種規(guī)格材質(zhì),有效幫助用戶進行購買決策。

由于網(wǎng)站買家來自全球各地,所以用戶對商品的評價信息也是來自多國多語言,網(wǎng)站提供選項將多語言評論信息勾選統(tǒng)一翻譯成英文的功能,幫助買家更好了解其他買家對商品的評價反饋信息。

1.1.3溝通翻譯:

網(wǎng)站買賣家都是來自世界各地,所以對商品的基本信息,售前咨詢,售后服務(wù)都需要進行基本的語言溝通,這是翻譯最基本的應(yīng)用場景,通過提供實時機器翻譯同時能夠?qū)Ψg結(jié)果進行后編輯,提升翻譯后譯文的質(zhì)量。可以幫助電商網(wǎng)站大大提升購買轉(zhuǎn)化和售后投訴等等問題。

1.2網(wǎng)站國際化解決方案

阿里翻譯目前服務(wù)集團內(nèi)數(shù)十個業(yè)務(wù)方的產(chǎn)品國際化及本地化需求,支持?jǐn)?shù)十種語言的人工精翻,實現(xiàn)網(wǎng)站本地化的標(biāo)準(zhǔn)化、自動化、中臺化。

1.3 人機結(jié)合翻譯解決方案

目前現(xiàn)有機器翻譯質(zhì)量還不完美的前提下,對于一些對質(zhì)量要求極高的內(nèi)容通過適當(dāng)加入人工翻譯的力量可以快速達成業(yè)務(wù)目標(biāo),目前阿里翻譯擁有上百家語言供應(yīng)商和數(shù)十萬個人譯者的龐大翻譯資源,可以針對重點商品進行高效快速的低成本人工翻譯,對快速啟動新業(yè)務(wù)起到了不可或缺的作用。

1.4創(chuàng)新服務(wù)場景解決方案

阿里翻譯沉淀了優(yōu)質(zhì)的跨境語料數(shù)據(jù)庫,充分利用先進的機器翻譯算法技術(shù)和海量的數(shù)據(jù)資源,深度打磨機器翻譯質(zhì)量和產(chǎn)品體驗,并積極拓展機器翻譯業(yè)務(wù)的產(chǎn)品形態(tài),將各項機器翻譯技術(shù)產(chǎn)品化,如語音翻譯、會場同傳、實時溝通等新產(chǎn)品和服務(wù)形態(tài)。

阿里巴巴實時語音翻譯,于18年初隨阿里AI軍團一同出征美國CES(國際消費電子展),在拉斯維加斯精彩亮相,成功吸引了國內(nèi)外眾多媒體和觀眾的目光。

2、阿里機器翻譯技術(shù)體系的特點

在線上快速發(fā)展以及隨著集團開始全面國際化的背景下,阿里機器翻譯平臺經(jīng)過多年的打磨逐漸形成自己的體系。

2.1高性能高并發(fā)服務(wù)能力

當(dāng)前在線機器翻譯系統(tǒng)提供SMT和NMT兩種翻譯模型,近兩年來由于硬件計算能力的大幅提升和深度機器學(xué)習(xí)的廣泛使用,在翻譯質(zhì)量上NMT翻譯質(zhì)量已經(jīng)遠超傳統(tǒng)的SMT模型,不過NMT在計算上的復(fù)雜使得NMT在速度上也遠慢于SMT。NMT解碼速度的提升是系統(tǒng)提供高吞吐,低延遲服務(wù)的關(guān)鍵。

2.1.1 分布式并行翻譯

當(dāng)前機翻平臺承接的業(yè)務(wù)相當(dāng)大的一部分翻譯需求為大本文和網(wǎng)頁,將這些請求按照對應(yīng)的格式進行結(jié)構(gòu)化的解析,然后通過分句模型把篇章級的請求分隔為句子級別,然后再分布式批量調(diào)用解碼服務(wù),這樣不僅能大幅提高分布式緩存的命中率,環(huán)節(jié)性能壓力同時也能大幅降低長文本的翻譯延遲。

2.1.2 Inference優(yōu)化

今年NMT已經(jīng)成了翻譯行業(yè)的一個標(biāo)配,隨著這種技術(shù)的普及也給系統(tǒng)性能帶來了新的挑戰(zhàn)。這一年多基于GPU的NMT優(yōu)化極大的提高了系統(tǒng)的解碼速度,對系統(tǒng)的解碼速度有數(shù)倍的提升。

2.1.3 SMT和NMT混合解碼

根據(jù)實際業(yè)務(wù)場景,我們發(fā)現(xiàn)在處理商品頁的時候會出現(xiàn)大量短句,而且這些短句的NMT翻譯結(jié)果還不如SMT的翻譯結(jié)果,所以在調(diào)用decoder前通過一個策略模塊來決策調(diào)用SMT或者NMT,從而減少NMT的吞吐量,極大的減少了GPU資源的消耗同時也提升了翻譯質(zhì)量。

2.2 服務(wù)全球化以及高可用的保障

2.2.1 全球多機房部署

阿里集團的涉及到的多語言翻譯業(yè)務(wù)需求遍布全球,為了更好的支持不同地域的翻譯需求同時能盡量減小由于地域帶來的訪問延遲,翻譯平臺實現(xiàn)了全球中國、俄羅斯、美國、新加坡多機房部署。 不僅實現(xiàn)了單地域的多機房容災(zāi)同時還支持跨地域全球容災(zāi)。

2.2.2 多場景差異化支持

阿里翻譯接入的場景比較多情況也比較復(fù)雜,不同的應(yīng)用場景對系統(tǒng)的要求也不盡相同,所以針對不同的應(yīng)用場景實現(xiàn)了同步和異步兩套處理機制,架構(gòu)上實現(xiàn)兩種不同的對外接口,但是機翻引擎保持同一套代碼同一套服務(wù),

同步:

接收到請求后實時的調(diào)用后端引擎,能夠做到實時返回,用于對rt要求高的場景,另外通過多級緩存進一步的提高吞吐量和降低rt。

異步:

大文本商品翻譯和離線翻譯場景。通過metaq消息隊列實現(xiàn)異步化,通過不同的消息隊列來對應(yīng)用設(shè)置不同的優(yōu)先級,使用信號量來控制不同隊列消費的線程數(shù),動態(tài)的解決翻譯熱點時消息堆積問題。

2.3 Transformer 新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

阿里機器翻譯基于業(yè)界最新的Transformer結(jié)構(gòu)進行了網(wǎng)絡(luò)結(jié)構(gòu)的改進和對詞語位置信息的充分利用,全面改進了機器翻譯的性能。

2.4 多模態(tài)服務(wù)能力

現(xiàn)階段的機器翻譯已不僅僅局限于文字到文字的翻譯, 多模態(tài)的翻譯已成為發(fā)展趨勢。將多模態(tài)的信息如語音、圖像、類目等通過神經(jīng)網(wǎng)絡(luò)進行融合,并利用Attention機制將信息加以聚焦,可以獲得良好的效果。阿里翻譯實時語音翻譯demo在云棲大會、CES展會上都有亮眼的表現(xiàn)。

3、阿里云機器翻譯API接入流程

介紹了技術(shù)能力和如此廣闊的應(yīng)用場景,接下來詳細(xì)介紹下我們到底應(yīng)該如何接入使用?

1、打開阿里云主頁(https://www.aliyun.com),在導(dǎo)航欄選擇產(chǎn)品-人工智能-機器翻譯,進入自然語言處理頁面選擇開通服務(wù)

2、勾選閱讀并同意協(xié)議,單擊立即開通

3、進入自然語言處理控制臺,選擇購買資源包

4、購買對應(yīng)的資源包,購買量越大單價越便宜。

5、購買完成后就可以進行調(diào)用了。可在API調(diào)試界面進行調(diào)試

6、機器翻譯調(diào)用說明文檔

7、代碼調(diào)用示例

8、代碼調(diào)用失敗示例,查看錯誤信息

4、未來展望

為了更好地迎接國際化帶來的挑戰(zhàn), 阿里翻譯團隊在未來還有著很大的想象空間,在翻譯模型上會向“統(tǒng)一化,多任務(wù)化,多模態(tài)化”方向發(fā)展,產(chǎn)品形態(tài)上除了目前基于文本的翻譯外,會擴展跟多模態(tài)的翻譯產(chǎn)品,例如語音翻譯、圖像翻譯等領(lǐng)域,同時還是針對具體應(yīng)用場景例如搜索、實時溝通、旅游推出相關(guān)接口服務(wù),在服務(wù)部署上也會針對客戶需求推出定制化私有化部署的能力,助力企業(yè)解決國際化過程中的語言問題。

了解更多阿里云AI產(chǎn)品請戳:http://click.aliyun.com/m/100...

本文作者:云攻略小攻

閱讀原文

本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。