日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】

發(fā)布時(shí)間:2024/2/28 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

導(dǎo)讀:計(jì)算和存儲(chǔ)分離是近幾年大數(shù)據(jù)架構(gòu)領(lǐng)域頗受關(guān)注的一個(gè)技術(shù)風(fēng)向。在對(duì)剛剛過去的 2019 天貓雙 11 技術(shù)進(jìn)行總結(jié)時(shí),阿里巴巴 CTO 行癲也特別提到了阿里在計(jì)算存儲(chǔ)分離上的進(jìn)展。大數(shù)據(jù)最初興起之時(shí),主流網(wǎng)絡(luò)帶寬只有 100Mb,通過網(wǎng)絡(luò)遠(yuǎn)程訪問數(shù)據(jù)實(shí)在太慢了。為了解決數(shù)據(jù)快速訪問的問題,Google 創(chuàng)造性地提出了計(jì)算和存儲(chǔ)耦合的架構(gòu),而 Hadoop 延續(xù)了這個(gè)架構(gòu),風(fēng)光一時(shí)無兩。但十年過去之后,如今的網(wǎng)絡(luò)帶寬相比當(dāng)時(shí)已經(jīng)增長了一百倍,達(dá)到了 10G 以上,IO 不再是大數(shù)據(jù)的瓶頸,計(jì)算才是。

近日,在InfoQ 對(duì)阿里巴巴計(jì)算平臺(tái)資深技術(shù)專家胡月軍(花名一浪)的采訪中,聊了聊阿里搜索與廣告引擎的技術(shù)演進(jìn)脈絡(luò)、阿里新一代交互式分析引擎以及大數(shù)據(jù)領(lǐng)域近幾年的技術(shù)趨勢和變化。在采訪中,胡月軍表示:“計(jì)算存儲(chǔ)分離使存儲(chǔ)和計(jì)算資源可以各自根據(jù)需求進(jìn)行伸縮,較好地節(jié)約了成本,但也給高效引擎的設(shè)計(jì)與實(shí)現(xiàn)帶來了不少挑戰(zhàn)。”

InfoQ:您曾經(jīng)負(fù)責(zé)阿里巴巴多個(gè)不同業(yè)務(wù)線的搜索與廣告引擎,能否請(qǐng)您給我們整體梳理一下這幾年阿里不同搜索與廣告引擎的技術(shù)演進(jìn)脈絡(luò)?比如可以分成哪些階段?不同階段技術(shù)上的側(cè)重點(diǎn)有何不同?

胡月軍: 近年來,伴隨著電商平臺(tái)商品量的大量豐富,基于實(shí)時(shí)推薦的智能化運(yùn)營興起以及對(duì)提升購物體驗(yàn)和促成交持續(xù)優(yōu)化的業(yè)務(wù)背景下,搜索和推薦的引擎技術(shù)也大致經(jīng)歷了三個(gè)階段。第一階段主要關(guān)注點(diǎn)在引擎檢索性能的提升,當(dāng)時(shí)我們做了很多關(guān)于索引構(gòu)建、查詢流程以及算分等組件的優(yōu)化來提升引擎的 QPS;隨著業(yè)務(wù)實(shí)時(shí)化需求越來越迫切,第二階段我們引擎在在線和離線都做了不少工作,在線引擎實(shí)現(xiàn)了內(nèi)存索引以及輔表關(guān)聯(lián),離線基于 Flink 孵化了 Blink 的流計(jì)算引擎和 Porsche 在線機(jī)器學(xué)習(xí)平臺(tái),大大縮短了端到端的處理延遲,大幅提升了搜索和推薦的實(shí)時(shí)性購物體驗(yàn);第三階段引擎的進(jìn)步主要來自于支持算法的高效迭代和持續(xù)提升搜索和推薦的精準(zhǔn)性,我們將引擎的召回和算分進(jìn)行了分離,抽象出了 RankingService 服務(wù),從而支持各種搜索和推薦召回場景的統(tǒng)一打分,同時(shí)支持在線深度學(xué)習(xí)計(jì)算,較好地提升了購物體驗(yàn)和成交引導(dǎo)。

InfoQ:阿里云新一代交互式分析產(chǎn)品誕生的背景是什么樣的?為什么你們要在阿里的 MaxCompute 大數(shù)據(jù)計(jì)算平臺(tái)、EMR 開源大數(shù)據(jù)計(jì)算平臺(tái)、實(shí)時(shí)計(jì)算平臺(tái)之外再打造一個(gè)新的交互式分析引擎?是為了解決哪些問題?

胡月軍: 阿里云計(jì)算平臺(tái)交互式分析引擎的高效存儲(chǔ)在 16 年就開始研發(fā)了。一開始開發(fā)交互式分析引擎的目標(biāo)是為了解決 HBase 的穩(wěn)定性和性能問題,基于存儲(chǔ)計(jì)算分離和純異步的 runtime 我們實(shí)現(xiàn)了高性能的存儲(chǔ)引擎,上線以后性能是原 HBase 的 3~10 倍。后來基于業(yè)務(wù)需求,演進(jìn)成了兼容 PG 生態(tài)的大數(shù)據(jù)實(shí)時(shí)數(shù)倉系統(tǒng)。
它和阿里的其他大數(shù)據(jù)平臺(tái)有著不一樣的定位:MaxCompute 平臺(tái)是阿里自研的高效離線數(shù)倉系統(tǒng),主要 focus 在高吞吐的批處理;EMR 平臺(tái)主要是為了方便公有云上的客戶快速搭建自己的開源大數(shù)據(jù)解決方案;實(shí)時(shí)計(jì)算平臺(tái)主要關(guān)注流處理這塊的業(yè)務(wù);至于交互式分析,我們主要是為解決實(shí)時(shí)數(shù)據(jù)存儲(chǔ)和 OLAP 分析的高效即席查詢問題,同時(shí)實(shí)現(xiàn)對(duì) MaxCompute 的離線數(shù)倉進(jìn)行直接查詢加速。
這些不同的平臺(tái)通常會(huì)合在一起給客戶提供一個(gè)完整的大數(shù)據(jù)解決方案。一個(gè)典型的場景是:數(shù)據(jù)通過 Flink/Blink 進(jìn)行實(shí)時(shí) ETL 處理后寫入交互式分析的存儲(chǔ)系統(tǒng),然后用戶在交互式分析引擎中進(jìn)行各種 Ad Hoc 的查詢;如果用戶需要執(zhí)行批處理任務(wù),再把數(shù)據(jù)導(dǎo)入到 MaxCompute 中進(jìn)行處理;此外,對(duì)于已經(jīng)在 MaxCompute 中的數(shù)據(jù),可以使用交互式分析進(jìn)行直接加速查詢。

InfoQ:阿里云的交互式分析產(chǎn)品是否有對(duì)標(biāo)的商業(yè)化產(chǎn)品或開源產(chǎn)品?如果有的話,它跟這些對(duì)標(biāo)產(chǎn)品相比,有哪些技術(shù)上的差異和亮點(diǎn)?

胡月軍: 在業(yè)界和阿里云交互式分析對(duì)標(biāo)的一些產(chǎn)品有 Redshift、Snowflake、GaussDB 和 Hermes。阿里云交互式分析的主要技術(shù)亮點(diǎn)有:基于存儲(chǔ)計(jì)算分離的高效行列混合存儲(chǔ),基于 Orca 和支持聯(lián)邦查詢的優(yōu)化器,純異步高性能的查詢引擎,以及 PG11 生態(tài)兼容等特性。

infoQ:近 3 年來,您主要從事存儲(chǔ)與計(jì)算引擎的設(shè)計(jì)與研發(fā)工作,如果從大數(shù)據(jù)存儲(chǔ)層和計(jì)算引擎這兩個(gè)層面來看,您認(rèn)為最近這三年有哪些值得一提的新技術(shù)或項(xiàng)目?技術(shù)趨勢上有哪些變化?

胡月軍:個(gè)人認(rèn)為近 3 年大數(shù)據(jù)存儲(chǔ)和計(jì)算領(lǐng)域比較有意義的新技術(shù)就是存儲(chǔ)和計(jì)算分離的興起,比如 Snowflake 等,它使存儲(chǔ)和計(jì)算資源可以各自根據(jù)需求進(jìn)行伸縮,較好地節(jié)約了成本,當(dāng)然這也給高效引擎的設(shè)計(jì)與實(shí)現(xiàn)帶來了不少挑戰(zhàn)。比如怎么設(shè)計(jì)專門的存儲(chǔ)機(jī)型和高效 I/O 實(shí)現(xiàn)?怎么優(yōu)化網(wǎng)絡(luò)連接?怎么在計(jì)算節(jié)點(diǎn) I/O 延遲可能會(huì)增大的情況下保證 query 處理的低延遲?
技術(shù)趨勢上,個(gè)人看到的一個(gè)趨勢就是大家對(duì)存儲(chǔ)層的重視,比如 Databricks 開源了 Delta Lake,對(duì)于阿里云的交互式分析引擎來說底層存儲(chǔ)引擎也是一個(gè)非常重要的競爭力,事實(shí)上只有做好了存儲(chǔ)引擎和數(shù)據(jù)的統(tǒng)一管理才能使得上層的計(jì)算更高效和統(tǒng)一。

InfoQ:有觀點(diǎn)認(rèn)為“17-18 年是計(jì)算引擎火熱的一年,現(xiàn)在這塊已經(jīng)是紅海了”,您是否認(rèn)同這一觀點(diǎn)?您認(rèn)為當(dāng)前大數(shù)據(jù)計(jì)算引擎處于什么樣的發(fā)展階段?市場是否已經(jīng)飽和?接下來計(jì)算引擎這塊還有什么值得關(guān)注的技術(shù)方向?

胡月軍: 這兩年各種開源的計(jì)算引擎確實(shí)發(fā)展得很快,比如 Flink SQL 的流批統(tǒng)一處理,Spark Structured Streaming 的完善以及 MPP 引擎 Greenplum 的 6.0 的發(fā)布。但紅海可能還不至于,據(jù)我們調(diào)查了解,目前很多公司的大數(shù)據(jù)解決方案還是基于 Hadoop/Hive,新引擎的市場普及度還處于早期階段。
對(duì)于計(jì)算引擎本身,個(gè)人認(rèn)為圖計(jì)算和圖像、視頻處理的高效支持可能會(huì)是值得關(guān)注的技術(shù)方向。隨著當(dāng)下推薦、信用和安全等需求的興起,對(duì)于關(guān)系的存儲(chǔ)和處理越來越重要,目前各家引擎對(duì)圖計(jì)算的支持還處在各顯神通的階段,后面的發(fā)展值得關(guān)注;圖形和視頻處理帶來向量計(jì)算應(yīng)用目前也原來越來廣泛,目前已經(jīng)有幾家陸續(xù)將自己的技術(shù)開源。

InfoQ:計(jì)算引擎之外,大數(shù)據(jù)存儲(chǔ)層今年出現(xiàn)了不少熱門話題,比如數(shù)據(jù)湖、實(shí)時(shí)數(shù)倉。您怎么看今年實(shí)時(shí)數(shù)倉和數(shù)據(jù)湖的火熱?

胡月軍: 實(shí)時(shí)數(shù)倉的火熱本質(zhì)上還是來自于業(yè)務(wù)的驅(qū)動(dòng)。當(dāng)下,智能推薦和精準(zhǔn)運(yùn)營等業(yè)務(wù)都依賴于對(duì)實(shí)時(shí)數(shù)據(jù)的快速挖掘。小時(shí)級(jí)別,或者天級(jí)別的數(shù)據(jù)分析對(duì)于很多業(yè)務(wù)來說再也回不去了。
再說數(shù)據(jù)湖,當(dāng)前的數(shù)據(jù)倉庫一般存儲(chǔ)的是經(jīng)過 ETL 清洗過的數(shù)據(jù),原始的數(shù)據(jù)信息會(huì)有一定的缺失,所以現(xiàn)在有人提倡也存儲(chǔ)各種原始的數(shù)據(jù),從而進(jìn)行各種靈活的分析。數(shù)據(jù)湖就是這樣一個(gè)解決方案,提供統(tǒng)一的數(shù)據(jù)同步、存儲(chǔ)和管理機(jī)制,以及計(jì)算任務(wù)的提交和調(diào)度,它強(qiáng)調(diào)對(duì)數(shù)據(jù)更全面和系統(tǒng)化的管理和應(yīng)用。按我個(gè)人的理解,數(shù)據(jù)湖就是一個(gè)概念,像數(shù)據(jù)倉庫一樣,只不過其提倡保存更多的原始數(shù)據(jù)以及加強(qiáng)對(duì)數(shù)據(jù)管理的控制。底層的相關(guān)技術(shù)應(yīng)該還是基于當(dāng)下的存儲(chǔ)和計(jì)算技術(shù),沒有太大的革命性變化。

InfoQ:2019 年 6 月,谷歌以 26 億美元收購數(shù)據(jù)分析公司 Looker。同月,Salesforce 宣布以 157 億美元收購 BI 企業(yè) Tableau。2019 年 9 月,Cloudera 宣布收購商業(yè)智能實(shí)時(shí)分析廠商 Arcadia Data。這幾場收購對(duì)于大數(shù)據(jù)領(lǐng)域來說意味著什么?統(tǒng)一數(shù)據(jù)分析平臺(tái)會(huì)是大數(shù)據(jù)領(lǐng)域下一個(gè)技術(shù)爆發(fā)點(diǎn)嗎?

胡月軍: 個(gè)人理解這些收購反映的是大數(shù)據(jù)公司對(duì)上層數(shù)據(jù)分析業(yè)務(wù)系統(tǒng)的滲透和把控,這樣的整合應(yīng)該會(huì)給用戶帶來更好的分析系統(tǒng)使用體驗(yàn),比如數(shù)據(jù)分析服務(wù)的云化,從而使得公司能更好地占領(lǐng) PaaS 和 SaaS 市場。
一體化的數(shù)據(jù)分析平臺(tái)會(huì)實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一存儲(chǔ)和管理,以及各種分析任務(wù)的調(diào)度和執(zhí)行,在避免數(shù)據(jù)搬遷開銷的同時(shí)給用戶提供統(tǒng)一的使用體驗(yàn),個(gè)人認(rèn)為這將會(huì)是一個(gè)水到渠成的結(jié)果。

以上采訪摘自:《阿里資深技術(shù)專家胡月軍:大數(shù)據(jù)十年,我看到的技術(shù)變化和趨勢》作者:蔡芳芳


最后,就我所知曉的一些知識(shí),淺談一些看法。

還記得之前和一用友的領(lǐng)導(dǎo)交談(嗯,你沒想錯(cuò),我就是在面試),他提到大數(shù)據(jù)的技術(shù)近幾年已經(jīng)趨于成熟,他個(gè)人比較鼓勵(lì)我先走一走java,多學(xué)習(xí)整體的業(yè)務(wù),架構(gòu)。他也表示自己就是這樣過來的。

當(dāng)然不能說前輩說的不對(duì),是有他的道理,我呢?是一個(gè)比較較勁的人。偏不信。

我個(gè)人是比較想走數(shù)據(jù)崗的,雖然現(xiàn)在在后臺(tái)開發(fā)。(以后再絮叨這個(gè)事情。)

回到正題,我們從上述采訪中看到,一浪大哥說到這樣一句話:據(jù)我們調(diào)查了解,目前很多公司的大數(shù)據(jù)解決方案還是基于 Hadoop/Hive,新引擎的市場普及度還處于早期階段。

嗯,不知道算不算爆料,京東內(nèi)部的一些業(yè)務(wù)的實(shí)時(shí)使用的是storm,相比sparkstreaming和新生寵兒flink,確實(shí)顯得老久舊了點(diǎn)。

當(dāng)然在公司,技術(shù)的選擇不代表新的就是最好的,最適合的才是最好的,就像談戀愛一樣。

所以大數(shù)據(jù)的前景并沒有這么悲觀。我覺得還是很友善的。

以及提到的實(shí)時(shí)數(shù)倉和數(shù)據(jù)湖,表述的那叫一個(gè)淺顯易懂,沒細(xì)看的自行上翻!!!

當(dāng)然,采訪中提到了不僅僅這些,甚至有些內(nèi)容,因?yàn)椴攀鑼W(xué)淺,并不曉得。

但是整篇報(bào)道,很值得細(xì)細(xì)品味!

未來大家都沒辦法預(yù)測,就像今年你能想到口罩戰(zhàn)勝了豬肉嗎?
所以,我們要做的就是把握現(xiàn)在,擼起袖子加油干!

最后感謝蔡芳芳大大的采訪文章,非常喜歡。
然后,武漢加油(今天增加了15000,要嚇?biāo)牢?#xff09;,中國加油,不能上班,理個(gè)發(fā)也行呀!!!

總結(jié)

以上是生活随笔為你收集整理的阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。