2684亿销售额背后的阿里AI技术
人工智能生態(tài)發(fā)展趨勢
大家好,我是林偉,我今天演講的主題是《AI 突破無限可能—5 億消費者的云上雙 11》。我本人是做系統(tǒng)出身的,但在最近的一些會議上發(fā)現(xiàn),越來越多做系統(tǒng)出身的人開始研究 AI。在 90 年代末的那波熱潮里,我有幸在學校的人工智能實驗室呆過,那時還在糾結(jié)模型效果,最后發(fā)現(xiàn)是自己想多了,那時做出來的東西還遠遠達不到可用的狀態(tài)。在后來的一段時間內(nèi),AI 進入沉寂,最近幾年又突然火爆,我在一些學校做交流的時候發(fā)現(xiàn)很多同學都在研究 AI 算法,但其實神經(jīng)網(wǎng)絡(luò)、遺傳算法和模擬算法很多年前就已經(jīng)出現(xiàn),最近幾年才爆發(fā)的最主要原因是數(shù)據(jù)和算力的提升。
在這之中,云計算也起到了很大作用,只有算力更加充足,才可以擬合出更加有效的模型,這也是阿里巴巴 2009 年堅定投入云計算的重要原因。說到阿里云,其實阿里云有個非常大的客戶就是阿里巴巴自己的電商業(yè)務(wù),而阿里電商全年最重要的一個活動就是雙 11。
過去幾年,阿里雙 11 的營業(yè)額逐漸升高,這背后更深層次的原因其實是我們實現(xiàn)了核心系統(tǒng)的 100% 上云。上云之后,我們發(fā)現(xiàn) AI 離不開計算,只有具備強大的計算力才可以利用 AI 技術(shù)提高效率,雙 11 就是一個很好的練兵場。在這樣的規(guī)模下,如何構(gòu)造系統(tǒng)、處理數(shù)據(jù)以及迅速挖掘數(shù)據(jù)背后的價值是我們在思考的問題。
在整個大趨勢下面,我們可以看到三個因素:
一是實時化。 雙 11 就一天,我們必須理解數(shù)據(jù)并及時反饋給商家,實時性非常重要,雙 11 大屏背后的支撐系統(tǒng)就是通過 Flink 實現(xiàn)實時計算。單純的銷售額可能沒有特別大的意義,我們需要進行實時分析以得到更細致的指標,比如用戶的購買興趣、商品類別、供銷比、渠道、倉儲位置和貨源等,我們需要通過實時分析及時反饋給商家、快遞公司等,讓各方都可以明確如何調(diào)整雙 11 當天的策略。今年雙 11,我們每秒可以處理 25.5 億條消息,包括買賣消息、快遞請求等。
二是規(guī)模性。?我們不僅需要實時反饋,雙 11 結(jié)束還需要精細對賬給銀行和商家。今年,我們僅花費一天時間(也就是 11 月 12 日)就完成了所有報表匯報,這就是通過云平臺的彈性來實現(xiàn)的。在這么大的規(guī)模下,商家服務(wù)效率也是一個問題,原來就是靠人,用電話和小二來服務(wù)商家,現(xiàn)在這樣的規(guī)模體系下就需要用 AI 技術(shù)來服務(wù)商家,并通過 AI 輔助快遞配送,比如機器人可能會詢問用戶:在不在家?包裹放在哪里等問題。在大家以往的印象中,AI 離生活很遠,但輔助快遞配送就是一個很具體的場景,可以為用戶帶來更好的體驗,包括淘寶首頁的個性化推薦等。
如今,淘寶推薦也會有一些動態(tài)封面,這背后是我們一天分析了 2.5 億個視頻的結(jié)果,現(xiàn)在的淘寶上也有很多用短視頻賣貨宣傳的,我們分析了 2.5 億視頻,最后日均商品分析達到 15000 萬。我們統(tǒng)計了當天通過視頻購買商品的人,發(fā)現(xiàn)平均有效時長是 120 秒。通過這種新技術(shù)可以促進新的場景。
三是 AI。 這一切的背后是數(shù)據(jù)的力量,整個雙 11 都是 AI 和數(shù)據(jù)在驅(qū)動。實時性、規(guī)模性和 AI 三者相輔相成讓雙 11 的效率得到了大幅提高,計算處理能力也有了很大提高,這就是?2684 億銷售額背后的技術(shù)力量。
云上雙 11 的 AI 能力
回歸技術(shù)本身。2017 年以前,我們的系統(tǒng)是比較簡單的,更多的任務(wù)是處理數(shù)據(jù)和生成報表。一年半以前,我們開始加入更多實時性,用實時數(shù)據(jù)反饋商業(yè)決策,這就有了 MaxCompute 的出現(xiàn)。
如今,整個技術(shù)后臺非常復(fù)雜,我們有非常好的一些計算引擎,可以進行全域數(shù)據(jù)集成,具備統(tǒng)一的源數(shù)據(jù)管理、任務(wù)管理,智能數(shù)據(jù)開發(fā)和數(shù)據(jù)合成治理等能力。
說到底,AI 和計算其實是共生體,AI 的繁榮依賴于計算力的積累,所以我們需要很好的數(shù)據(jù)處理平臺進行分析和提取,服務(wù)好算法工程師進行創(chuàng)新,比如嘗試各種各樣的模型、各種各樣構(gòu)造機器學習的方式,看看能否提高人工智能的效率和準確度。
企業(yè)如何構(gòu)建云上 AI 能力
上述這些主要是 AI 的場景,接下來,我會著重介紹這些場景背后的 AI 技術(shù),主要圍繞飛天 AI 平臺,上層是 PAI 和在線推理服務(wù) EAS,然后分為 DSW 開發(fā)平臺,PAI Studio 和 Auto Learning 三部分,基于訓練優(yōu)化引擎和推理優(yōu)化引擎,解決大規(guī)模分布式數(shù)據(jù)處理問題。
此外,我們還有在線機器學習系統(tǒng),可以對用戶行為日志進行實時和離線計算,然后抽取特征庫,生成批流統(tǒng)一樣本,進入樣本庫,最終進行批流統(tǒng)一模型訓練。為什么我們要做這個?一是因為實時性,傳統(tǒng)的搜索是非常不敏感的,而我們是在遵循用戶興趣的變化,如果兩周更新一次模型可能已經(jīng)錯過了幾輪熱銷商品,我們需要通過在線機器學習的方式進行實時判斷,這非常接近于深度學習。在非實時的狀態(tài)下,工程師可以非常精細的做特征工程,花更多的時間理解數(shù)據(jù),利用深度學習本身的特性捕獲數(shù)據(jù)之間的關(guān)系,而不是靠專家提取,這是深度學習的好處,但這需要海量的計算才可以完成,而在線機器學習系統(tǒng)會把雙 11 當天的日志及時傳遞到實時計算平臺做集合,然后通過分析按照 ID 對數(shù)據(jù)進行聚合形成樣本,最后根據(jù)樣本做增量學習、驗證、部署,只有這樣才能快速更新模型,使其遵循用戶或者商業(yè)的變化。
在這個過程中,我們面臨的第二個挑戰(zhàn)是模型非常大,因為要“千人千面”,因此需要一個非常大且針對稀疏場景的分布式訓練。目前的開源機器學習框架還遠遠達不到我們的規(guī)模要求,我們需要進行大量的優(yōu)化,以便在稀疏場景下訓練大規(guī)模數(shù)據(jù)。如果對深度學習有了解,就應(yīng)該知道深度學習可以描述非常大的細粒度圖,在圖上如何進行切割讓圖的計算和通訊可以更好地平衡是需要考慮的問題。
通過通信算子融合和基于通信代價的算子下推,我們實現(xiàn)了分布式圖優(yōu)化技術(shù)。通過高效內(nèi)存分配庫,比如 thread 庫、Share Nothing 執(zhí)行框架;利用 Spares 特性的通訊;異步訓練,通訊和計算充分 overlap;容錯、partial checkpoint、autoscale、動態(tài) embedding;支持大規(guī)模梯度 optimizer 的方法實現(xiàn)運行框架的優(yōu)化,如下圖所示:
優(yōu)化之后,性能上達到了七倍提升。稀疏特征規(guī)模從數(shù)十億到數(shù)百億,樣本從數(shù)百億到上千億,同時還有上千worker 的分布式增量訓練。
在動態(tài)封面層面,我們分析了大量視頻文件,視頻比圖片更復(fù)雜,因為視頻牽涉的環(huán)節(jié)非常多,需要做視頻的預(yù)處理,提取視頻幀,但不可能每一幀都進行提取,這樣做的代價實在是太大了,需要提取視頻的關(guān)鍵幀,通過圖片識別和目標檢測提取,這是很復(fù)雜的工作。因此,我們研發(fā)了視頻平臺,幫助視頻分析和算法工程師解決問題,具體架構(gòu)如下圖所示:
在視頻里面,在線服務(wù)其實也很復(fù)雜,有分解,也有合成。首先對視頻進行分解,然后加以理解并提取,最后進行合成。通過視頻 PAI-EAS 在線服務(wù)平臺,算法工程師只需要編寫簡單的 Python 代碼就可以通過接口調(diào)用相應(yīng)服務(wù),讓他們有更多的時間進行創(chuàng)新。
除了上述場景,整個平臺最重要的就是支持算法工程師的海量創(chuàng)新。五年以前,阿里的算法模型非常寶貴,寫算法的人不是特別多。隨著深度學習的演進,現(xiàn)在越來越多的算法工程師在構(gòu)造模型。為了支撐這些需求,我們進行了 AI 自動化,讓算法建模同學專注業(yè)務(wù)建模本身,由系統(tǒng)將基礎(chǔ)設(shè)施(PAI)完成業(yè)務(wù)模型的高效、高性能運行執(zhí)行。
在深度學習方面,我們分別進行了前端和后端優(yōu)化。我們希望通過編譯技術(shù),系統(tǒng)技術(shù)服務(wù)實現(xiàn)圖優(yōu)化、任務(wù)分割、分布式調(diào)度、數(shù)據(jù)分片、模型分片,通過系統(tǒng)模型選擇我們認為最好的方案執(zhí)行,這是我們整個平臺做 PAI 的理念。整個 PAI-Blade 通用推理優(yōu)化框架分為如下幾部分:
通過系列改進,我們也取得了一些優(yōu)化成果。我們有一個非常大的集群,在集群足夠大的時候,我們就可以很好地實現(xiàn)復(fù)用。通過資源調(diào)度和引擎的配合能夠提升 GPU 集群 30% 的利用率。
此外,我們很多 AI 服務(wù)都加載在線服務(wù)框架,我們叫做 PAI EAS,這個框架是云原生的,可以更好地利用云平臺本身的規(guī)模性和可擴展性,撐住雙 11 當天的海量 AI 請求。因為雙 11 不僅是商業(yè)數(shù)據(jù)、購買數(shù)據(jù)在暴漲,AI 請求也在暴漲,比如智能客服、菜鳥語音當天的服務(wù)量都非常大,通過利用云平臺的能力,我們可以提供更好的體驗。
綜上,這些技術(shù)支撐了阿里巴巴的所有 BU,支持單任務(wù) 5000+ 的分布式訓練,有數(shù)萬臺的機器,數(shù)千 AI 的服務(wù),日均調(diào)用量可以達到上十萬的規(guī)模。最后,阿里雙 11 的成長和 AI 技術(shù)的成長以及數(shù)據(jù)的爆發(fā)密不可分。
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的2684亿销售额背后的阿里AI技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高德服务单元化方案和架构实践
- 下一篇: 达摩院最新AI技术助力天猫双11,提供接