SIGMOD回顾:数据库国际大咖组团来阿里,他们都说了啥?
6月15日,備受矚目的第27屆ACM SIGMOD國際數(shù)據(jù)管理學(xué)術(shù)會(huì)議在美國休斯頓落下帷幕,在SIGMOD 2018現(xiàn)場,阿里巴巴舉辦了主題為“數(shù)據(jù)驅(qū)動(dòng)及機(jī)器學(xué)習(xí)賦能的自治數(shù)據(jù)庫系統(tǒng)”的Workshop,四支技術(shù)團(tuán)隊(duì)聯(lián)袂為100余位國際同仁展示了“阿里數(shù)據(jù)平臺(tái)”的能力。
本次專題研討會(huì)由集團(tuán)數(shù)據(jù)庫事業(yè)部高級(jí)研究員飛刀主持,內(nèi)容分為兩部分,第一部分由阿里集團(tuán)和阿里云的瑞萍,鳴嵩,德邁、歷下分別介紹了阿里巴巴AnalyticDB/Data Lake Analytics, PolarDB, X-DB Engine,計(jì)算平臺(tái)(包括MaxCompute,PAI,Blink和MaxGraph)等產(chǎn)品,如何依靠創(chuàng)新來解決阿里巴巴業(yè)務(wù)場景中傳統(tǒng)數(shù)據(jù)庫及數(shù)據(jù)處理技術(shù)難以克服的挑戰(zhàn)。
(阿里巴巴WORKSHOP立牌)
第二部分是邀請(qǐng)五位學(xué)術(shù)界知名教授作為panel discussion嘉賓,各自分享了他們?cè)凇癆I+數(shù)據(jù)庫”領(lǐng)域的工作以及對(duì)這個(gè)領(lǐng)域的一些看法,這五位教授分別是:
Gustavo Alonso, Professor and ACM/IEEE Fellow, ETH Zurich
AdityaParameswaran, Assistant Professor, University of Illinois Urbana-Champaign
IhabIlyas, Professor and ACM SIGMOD Vice Chair, University of Waterloo
Tim Kraska, Associate Professor, Massachusetts Institute of Technology
Andy Pavlo, Assistant Professor, Carnegie Mellon University
(飛刀、靖人與五位教授合影)
Gustavo Alonso教授在其分享中特別提出Autonomy through Hardware的觀點(diǎn),認(rèn)為自治數(shù)據(jù)庫需要是模塊化的,且需要應(yīng)用新硬件技術(shù)來更精細(xì)化地監(jiān)控和優(yōu)化整個(gè)系統(tǒng),例如使用FPGA技術(shù)來監(jiān)控機(jī)器學(xué)習(xí),做安全檢查,并提控系統(tǒng)控制等。他還分享了基于這些技術(shù)所構(gòu)建的原型系統(tǒng)。
AdityaParameswaran教授則風(fēng)趣地以改編肯尼迪總統(tǒng)講話來做開篇:“Ask not what ML can do for you, but what you can do for ML.”他指出其實(shí)機(jī)器學(xué)習(xí)的處理流程是一個(gè)“很痛苦”的迭代過程,這個(gè)過程需要人工參與其中。這中間每次迭代計(jì)算的時(shí)間消耗都很大,可以通過caching和reuse部分之前的中間結(jié)果來縮減這部分消耗。同時(shí)還需要更好的技術(shù)來幫助這個(gè)流程中的用戶來理解和調(diào)整每次迭代計(jì)算。最后,他指出在AI Winter is coming之際,學(xué)術(shù)界應(yīng)該考慮如何應(yīng)對(duì)。
IhabIlyas教授分享了在Data Cleaning and Integration領(lǐng)域應(yīng)用機(jī)器學(xué)習(xí)的洞見和成果。他特別指出,數(shù)據(jù)科學(xué)家在對(duì)數(shù)據(jù)做機(jī)器學(xué)習(xí)計(jì)算前,需要花費(fèi)大量的時(shí)間精力來對(duì)數(shù)據(jù)做預(yù)處理,包括transformation, ETL, joining, changing formats等等。其中涉及到data curation的問題則是更具挑戰(zhàn)的難題,而在這些領(lǐng)域應(yīng)用了機(jī)器學(xué)習(xí)反過來可以對(duì)機(jī)器學(xué)習(xí)的處理流程帶來巨大幫助。
TimKraska教授則提出了System for Machine Learning的觀點(diǎn)。如何建立一個(gè)完整的系統(tǒng)環(huán)境來幫助數(shù)據(jù)科學(xué)家更高效地分析處理數(shù)據(jù)是他的一個(gè)主要研究方向,包括借鑒數(shù)據(jù)庫的查詢優(yōu)化器來幫助機(jī)器學(xué)習(xí)的任務(wù)找到最優(yōu)的處理pipeline。另一方面,他也提出要把機(jī)器學(xué)習(xí)更深入地推到數(shù)據(jù)庫系統(tǒng)中來,包括之前廣受關(guān)注的其Learned Index工作在內(nèi),也將是他認(rèn)為的一個(gè)主要研究方向。
Andy Pavlo教授攜去年提出的自動(dòng)駕駛數(shù)據(jù)庫(Self-driving Database)研究成果,在本場研討會(huì)上更近一步闡述和明確了其Self-driving Database的涵義。不同于傳統(tǒng)的Auto Admin只是提供半自動(dòng)化建議,真正的自治數(shù)據(jù)庫一定是一個(gè)“預(yù)測-計(jì)劃-實(shí)施-觀測-反饋再預(yù)測”的完整閉環(huán)系統(tǒng)。其中action實(shí)施的工程化將是重要一環(huán)。
在回答與會(huì)者的提問中,幾位教授還特別指出,數(shù)據(jù)庫和機(jī)器學(xué)習(xí)領(lǐng)域可以相互幫助,如數(shù)據(jù)庫可以幫助機(jī)器學(xué)習(xí)專家來完成復(fù)雜的線性代數(shù)運(yùn)算,部署Machine Learning pipeline等。但同時(shí)不要試圖去強(qiáng)制改變現(xiàn)有的機(jī)器學(xué)習(xí)pipeline,而是可以在機(jī)器學(xué)習(xí)處理流程的優(yōu)化和調(diào)優(yōu)上提供幫助。數(shù)據(jù)庫領(lǐng)域的專家學(xué)者們可以借鑒大數(shù)據(jù)生態(tài)的演進(jìn)發(fā)展,逐步把數(shù)據(jù)庫技術(shù)帶入機(jī)器學(xué)習(xí)中而不是強(qiáng)求打造一個(gè)“全能的”數(shù)據(jù)庫。最后幾位教授也對(duì)阿里巴巴在此領(lǐng)域的繼續(xù)貢獻(xiàn)充滿期盼。
此次的Workshop是集團(tuán)幾個(gè)數(shù)據(jù)庫團(tuán)隊(duì)和計(jì)算平臺(tái)第一次攜手共同發(fā)出聲音,不僅全面展現(xiàn)了阿里巴巴數(shù)據(jù)平臺(tái)能力,而且通過與學(xué)術(shù)專家的深入交流,能夠讓阿里巴巴更全面的看清數(shù)據(jù)庫領(lǐng)域未來發(fā)展方向,提前進(jìn)行技術(shù)儲(chǔ)備及布局。
最后,附上幾張現(xiàn)場照片,讓更多同學(xué)感受下現(xiàn)場氛圍。
(阿里巴巴SIGMOD展臺(tái))
(阿里巴巴WORKSHOP提示屏)
(飛刀向教授們贈(zèng)送阿里公仔)
(阿里巴巴專題研討會(huì)現(xiàn)場)
(阿里巴巴技術(shù)同學(xué)合影)
總結(jié)
以上是生活随笔為你收集整理的SIGMOD回顾:数据库国际大咖组团来阿里,他们都说了啥?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 克隆人不只出现在科幻电影里?阿里虚拟美女
- 下一篇: 阿里云RDS vs 自建MySQL,这篇