Spark Streaming 作者,Alluxio 的创始人李浩源:AI 潮流对做数据存储业务公司的挑战...
本文轉載自 Robin.ly 社區,Robin.ly 和 TalentSeer 的創始人 Alex Ren 采訪了知名大數據初創公司Alluxio的創始人及CEO,李浩源博士,采訪中分享了李浩源博士對于大數據,對于AI帶來的大數據的存儲和計算問題,以及創業過程的理解。
采訪視頻地址:https://youtu.be/bFlzfUS2rfg
下文是采訪的文字整理。
Alex: 大家好,我是Alex Ren,是Robin.ly和TalentSeer的創始人。今天是我們Robin.ly Entrepreneurship Talk第二講,榮幸地邀請到了知名大數據初創公司Alluxio的創始人及CEO,李浩源博士來做分享。介紹一下Robin.ly,它是一個新的視頻內容平臺,主要目的是為了提高工程師和研究人員對于leadership,entrepreneurship和AI的理解。通過邀請知名投資人,創始人,AI領域的科學家學者,以及一些業內領袖分享他們的經歷,以此增進大家對于這些內容的理解。介紹一下李博士的背景:畢業于北大,康奈爾和UCBerkeley,獲得UC Berkeley計算機博士學位。他的導師之一Ion Stoica是Databricks的founding CEO;另外一位導師,Scott Shenker是IEEE的工程院院士,也是以前一家startup,Nicira的創始人,Nicira后來以12億美元被VMware收購。李博士是Tachyon和Spark Streaming系統的作者,也是Apache Spark的founding commiter。他曾經在Google和Conviva等公司從事過data mining相關工作。2015年李博士創立Alluxio時(那時公司名字是Techyon Nexus),獲得了巨大的關注,并得到了硅谷知名風投人Andreessen Horowitz將近$8 million的投資。最近幾年Alluxio獲得了長足的發展,目前開源社區也越來越大,是現在主流的一個開源社區。今天想請浩源來分享下他對于大數據,對于AI帶來的大數據的存儲和計算問題,以及創業過程的理解。首先表示感謝!先請浩源解釋一下Alluxio的定義,它的產品全稱是memory speed virtual distributed storage system。能否通俗地解釋下這是個什么系統?
李浩源:很高興接受Alex的邀請來到這里,跟一些工程師朋友和對創業有興趣的朋友做一些分享。回答一下問題:Alluxio系統,或者這個項目,是一個virtual distributed file system,翻譯成中文叫“虛擬分布式存儲系統”。這也是我當年博士項目以及博士論文的主題 。這個系統到底在干什么呢?為什么做,motivation是什么?從整個業界以及社會發展的角度看,未來的世界會是一個數據的時代。在一個數據的時代,最核心的價值本身在數據里面,這是foundation。在這種情況下,有個人干的科技,作為一個enabler或者facilitator。從這個角度出發,我們當時在探索什么樣的技術會對這個時代產生最根本性的改變,或者最fundamental的驅動。經過分析整個生態系統環境,無非就是兩點——從宏觀角度,是data-driven application,數據驅動的應用;另一個是存儲領域,怎么樣來存數據。這兩個領域,一個是上層計算領域,一個是下層存儲領域。再回來看整個數據的life cycle,絕大部分時間是在存儲里面。所以很自然而然的想法就是,在整個生態系統里,存儲系統會有最大的戰略性意義和重要性 。
這是我們最開始的想法。但之后發現有問題。回顧過去40年的存儲系統發展,基于硬件的發展以及算法的發展和架構的發展,每隔3-8年都會有新一代存儲系統產生。從用戶的角度看,用戶會有很多存儲,或者是同一個存儲很多部署在自己的環境里面,所以整個數據的存儲環境非常分散和混亂。而在數據時代,數據本身非常有價值,但前提是要管理好,利用好這些數據,但目前存儲領域沒有人能做好。因此我們做了這套系統,這個系統在計算和存儲之間,可以為用戶管理所有存儲在不同存儲系統里的數據。叫“虛擬化”,是因為我們不去真正存儲,但是替用戶去管理。在構建這個平臺的過程中,我們起到了一個enabler的作用,在不同的存儲里面管理所有數據。所以用戶使用時,可能有HDFS,可能有EMC的存儲,也可能有云存儲,比如美國的亞馬遜,微軟,國內的阿里巴巴,華為等。但是無論它用什么存儲,這個virtual distributed file system都可以把數據虛擬化,讓上層很有效地使用,訪問和管理數據。
Alex: 您講到了上層,你們的上層是什么?有哪些公司在跟你們合作上層系統?
李浩源:從宏觀角度講是data-driven applications。這個概念很廣,現在有不同的sector。比如最開始時,這個sector只是大家今天叫的big data analytics,比如Hadoop vendors,MapR,Cloudera,Hortonworks這種公司,這是第一批的data-driven application公司。之后第二批被稱作IoT,或者是machine learning 公司;這些公司去構建機器學習的應用,或者是物聯網的應用,最根本在于分析數據。無論是什么應用,只要是以數據驅動的應用——這是第二個和第三個sector。前瞻的話,以后隨著無人駕駛,5G的出現,無人駕駛汽車本身就是一個小的data center,并且跟終端的大數據中心會有很大的帶寬。所以它本身需要很大的數據交互量,這本身又是一個新的workload,未來的workload。我用這幾個例子來說明workload的趨勢,以前,新興以及未來的類型。現在很多workloads,有早期的像MapReduce,Spark,還有之后的Hive,以及又出現的Presto,TensorFlow,Caffe等。因為我們是開源軟件公司,很多互聯網上都有這些案例;針對可以讀中文的developer,我們推出了中文微信公眾號,分享了很多中文案例。
Alex: 您提到了一些AI這方面的應用,在你們創立公司之后,也就是2015年之后,AI開始熱度漸長,深度學習對數據的依賴越來越大,對存儲和計算資源的要求越來越高;您怎么看AI這波潮流對做數據存儲業務公司的挑戰?你們的解決方案是?
李浩源:無論是現在的AI潮流,以前的大數據潮流,IoT的潮流,以后新的潮流,我們認為總體的業界方向都是數據驅動。數據本身——今天大家叫business critical——對商業產生了很大的價值;到下一階段,可能有幾十年的時間,但是下一個階段主題是life critical,現在已經可以看到一些life critical的應用,比如自動駕駛,如果數據系統不work,就會危及生命。一個實際的案例是去年在舊金山的一個用戶,他們是一家大約1000人左右做基因分析的startup公司Guardant Health, 他們用我們的軟件分析癌癥患者的基因,之后把原來需要四周的分析時間變成了兩周。看起來似乎只差了一倍的時間,但是從癌癥病人的角度看是生與死的區別。所以慢慢地數據應用會從business critical變成life critical。
Some base curve大家都很清楚,從今天的fraud detection,到risk management,e-commerce,廣告推薦系統,產品推薦系統——做得越好,利潤越高。這就是business critical,以后就是life critical,這是核心,是整個應用的走向。只要應用是數據驅動的應用,就需要大量的數據。而從一般情況看,數據越實時,越好管理,利用的效率越高,應用的結果越好。這里會涉及到底層數據的管理,如何有效訪問數據,如何節省開銷,如何使想使用數據的應用更容易地更實時地使用到數據。而不是另一種方式——在用戶使用我們產品之前,有很多數據在另外一個存儲系統里。應用的developer需要用某個數據,需要把數據導到一個新的存儲里,這個過程可能要花費幾周甚至幾個月的時間。我們的系統可以使developer馬上用上數據,這就是質的區別。同樣兩家公司,假設都是financial service行業,數據使用速度不同,競爭力就完全不同。就好像兩個國家,一個有高速公路網,一個沒有,兩個國家同樣可以擁有奧迪,奔馳等汽車,但沒有高速公路網的話,汽車跑得再快還是受到極大的速度限制。
Alex: 能否介紹下你們的solution有什么特點?
李浩源:整個數據領域的興起大概是18年前,2001-2002年的時候。當時主要是幾家互聯網公司發現了這個領域的價值所在,提出大數據這一概念。很多人當時也看到了這個需求,認識到做數據平臺的機會,但是絕大部分市場上已有的廠商解決問題的思路是做一個更好的存儲系統。拿Hadoop vender這個大數據的廠商為例,今年可能已經改變了他們的message——但是5年前,10年前,談到類似的問題,它的解決辦法就是做一個非常好的存儲,很便宜且容易使用,然后告訴整個業界:既然我的存儲這么好,你們應該把所有的數據都移到我的存儲里面。然而它忽視了整個存儲行業的發展規律,每3-8年都會有一個trend——基于硬件發展以及架構革新的前進,總會有更好的存儲系統出現。今天是云存儲,或者叫面向對象的存儲(object store),取代8-10年前流行的大數據存儲HDFS。
我們提出的這個概念是,不想做一個更好的馬車,而是做一個汽車。將最根本的要做的事情進行了替換——不再做傳統的存儲,而是虛擬的存儲。同樣的philosophy也被用在了不同的領域。我博士論文做的Alluxio的概念叫VDFS,virtual distributed file system。這是拿PC時代發展舉的例子。比如,現在我們用ipad或者任何pad,無非是為了發郵件,辦公,看電影,玩游戲;并不需要關心郵件系統底下到底是如何設計的,也不需要關心ipad里面的CPU是誰產的。
從數據時代來看,這些應用以及應用的人關心的就是兩件事情:第一,要把一個數據放進去,第二,晚些時候要讀數據時候能讀出來,在這個前提下,讓剩下的事情盡量簡單高效。這就是最核心的額內容也是我們正在做的事情。
Alex: 我看到你們有一個目標叫unified data at memory speed,強調的是memory speed。能否從技術角度解釋一下這意味著什么?為什么一定要做到這個memory speed?
李浩源:unified data,可以把所有的數據整合起來;memory speed是業界硬件技術的一個發展趨勢。這里有兩個趨勢,其一是存儲計算分離,在計算端和計算集群有很多memory資源,內存資源,SSD資源以及硬盤資源。如何有效地管理這些資源,這就是我們做的事情——存儲計算分離。另外一個趨勢是,在計算端,緩存,DRAM,或者是3D Xpoint以及NVMe這些新型的緩存技術的容量持續以指數級的方式上漲。對于大部分的應用案例,大家會發現最重要的數據量在計算端,緩存以及內存資源已經有足夠能力來處理了。這個趨勢會越來越明顯。所以如何設計系統架構去盡可能地利用這個趨勢,非常重要。我們在設計系統的第一天,整個架構就是按照以上的趨勢進行的設計,因為我們相信這就是未來的大方向。
Alex: 我們來看看您之前的創業經歷。UC Berkeley的AMPLab享有盛譽,除了很多知名的開源產品,如Apache Mesos,Spark,Databricks這樣的公司。您在讀博士期間確定研究方向后,找到了這個痛點就做了現在的公司,這中間您有一個transition——從技術領域transit到了一個founder的角色。作為founder您就要開始關注一些商業模式和市場需求。這是一個什么樣的過程,有些什么樣的心得?
李浩源:一方面這是一個transition,另外一方面其實我也有一定的準備。從個人角度看,我對企業級軟件比較有興趣,也希望這種系統的創新可以被應用到不同的領域去power這種重要的infrastructure——這屬于個人興趣。基于這種興趣,在去Berkeley之前,我在一個做enterprise software的start up Conviva工作過一段時間。做enterprise software的公司和做comsumer product 的公司有一些差別,因為很多時候comsumer company自己也是客戶,可以從自己的角度去理解和思考。但是enterprise很多時候是面向企業,要專門去企業了解。所以在去Berkeley之前,我也利用了這個機會,這家公司除了做軟件工程師外,也給了我很多機會去了解enterprise software,如何做enterprise software。
因此在我開始讀博士以前,腦海里就有了大概的方向——要做數據,盡量和存儲相關,并且在Berkeley期間慢慢找到了最終的方向。所以整個過程都對創業有一些準備和思考。在博士畢業前開始創立這家公司時,還是很不同——做公司,做項目和博士發論文本身就截然不同,會涉及到不同的挑戰。
Alex: 我在跟您的溝通中發現您對技術痛點研究得比較深入,這個就是普通情況下founder需要做的事情。你要關注整個市場趨勢是什么,技術能解決什么痛點。這也說明您讀博時就已經有很強的目的性了。
李浩源:對。還有一個是當時實驗室的優勢,有兩方面原因——其一是實驗室的老師們給了博士生很大的空間和很多機會,如果學生想往一個方向走的話,你可以自己決定想走的方向。其二,整個實驗室的架構非常有利于產業界和學術界的結合。當時這間實驗室除了正常的自然科學基金資助以外,還有超過一半的資金來自業界,大約在硅谷數得上名字的技術公司都是這家實驗室的贊助商。所以每年有固定兩次每次三天,和業界進行集中交流的時間。作為博士生,實驗室的研究人員,有機會去向業界展示階段性的研究成果,他們也會給你一些意見和建議。這么一個feedback loop是一個非常有優勢的點。這種關系也方便了學生在六天以外跟一些不同的公司有很大程度的交流。我記得早期的時候,我們這個項目有幾十次presentation,有充分地與業界公司里權威的技術人員進行交流的機會。
Alex: 另外我也想到,您的導師是比較知名的成功的創業者,在學術上和創業上都做得比較成功難能可貴。您從他們身上學到了什么東西?
李浩源:因為我有兩個導師,他們每個人都不一樣。兩個人都非常厲害。在博士期間可以有這兩個導師是我的幸運。這兩個人從外界的角度來講都屬于功成名就了,無論是在學術界還是產業界。最重要的是他們都非常努力,即使在這個人生階段還是毫不松懈,他們的努力程度不亞于任何一個實驗室里的博士生,非常讓人驚訝。另外一個就是他們對學術和產業技術方向的觀點和看法非常深入。從我的角度看,他們在自己各自的領域都是世界上最杰出的任務。所以很多時候你思考的問題是如何從根本上來推動一個領域向前發展,非常有意思。從這方面看,去嘗試,做一點比較基礎性的創新很有意義,這也是我跟他們學到的一點。
Alex: 那您在創業生涯中,對哪些能力或者素質比較關注?比如說soft skills,還是
presentation,溝通能力?
李浩源:剛才的這些skill都很重要,我自身也需要一直提高這些技能,而且這些技能不要等到做公司那天再去學。從我個人經歷看,最開始做開源軟件,公司成立之前大約有五六十人,有二三十家公司,需要很多溝通,就需要對一些presentation和softskill進行提升。當然公司在發展的不同階段也一直需要提高這些技能。做不做公司是要看一個人要走的方向,但無論是否做公司這些技能的提高都很必要。
Alex:我想這個對你們來講可能尤其重要,因為你們不只做這個公司,而且還有個開源的社區。本身開源社區的架構和技術的推廣就是你們的責任。
李浩源:對。從另外一個角度講,這不是一個人的事情。我覺得我比較幸運的是我們公司有很多非常厲害的人,比如說現在有一個副總裁是專門負責開源社區的成長。也有副總裁是專門做產品,專門做營銷。負責社區的人會有day-to-day的跟社區人員溝通,當然會有各種各樣溝通上的問題,不過可以隨時解決。那最重要的是有一個好的團隊,架構設好了,有一個好的團隊,在這種情況下會是很好的經歷。
Alex:您提到了開源社區——我想您經常會出現兩個身份,一個是創始人,一個是開源社區的維護者。您怎么去平衡這兩個角色?
李浩源:說實話,比較難平衡。從創始人的角度看,很多時候要考慮一個技術遠景。從公司CEO的角度看,有很多的日常運營以及代理公司的問題,這兩個角色稍微有點區別。在開源社區這邊,由于我們有一個很不錯的團隊,所以社區方面的日常運營不需要我過分參與。但是有機會的話,我還是非常喜歡跟程序員社區的成員進行溝通。我本身也是程序員背景,很喜歡這件事情,有很大的passion。
Alex:我看到市場上你們在中美兩國都在推廣, 我想知道在市場上有哪些進展?
李浩源:目前是有很多公司在用。我們也感到非常自豪,因為各個領域最好的公司都在內部使用我們的軟件做越來越重要的業務。比如,我們采訪的大部分聽眾是中國的程序員背景,從中國國內的角度看,中國目前按市值來排名的最大的前十家互聯網公司里,有九家在產品線里使用我們的軟件,很多也是公開地積極地參與到社區的活動里。我們的微信公眾號里也有一些公開的案例,像騰訊,京東,滴滴,唯品會都在用,七牛,蘇寧也都在用我們的產品。除了互聯網行業,零售行業使用也很廣泛。目前使用最多的幾個行業是互聯網,零售,包括e-commerce,還有電信行業——特別是中美頂級的最好的三家電信公司都在用我們的軟件——當然還有金融服務行業,比如在美國和亞洲地區規模最大的銀行也在使用我們的產品。這也是我們目前覺得很自豪的事情: 我們的技術和產品可以得到這些很重要公司的認可,我們的產品能夠讓他們成為他們做很重要架構時的一個應用。
Alex:大數據創業幾年前就已經開始了,現在應該已經有像你們這樣做到有一定的attraction和客戶revenue的社區的一個情況,您怎么看Alluxio下一步的發展,未來三年的目標是什么?
李浩源:首先,大數據這個詞被幾個大數據廠商使用過度,成為了coin term。從這個角度講,我們不認為自己是一家大數據公司,而是一家數據公司。區別在哪里呢?大數據公司大家認為就是做大數據分析,像Spark,MapReduce,Hive;而我們做的其實叫data-driven application,只要是數據驅動的應用我認為都可以跑在我們的平臺上面。所以說我們是一家數據公司。這是我對未來的一個看法。
未來3-5年,在我剛才提到的幾個領域,中美之間還有整個亞太地區,最領先的產業公司大部分都在用我們的產品,所以希望兩方面:其一,從3年的角度看,有更多行業的頂級公司使用我們的產品,在它們的數據架構里面充當一個很重要的位置,這是從擴展行業的角度講;其二,在已有的行業里,希望有更多的公司使用我們的產品,也希望我們的社區發展得越來越大。因為如果想作一個市值標準的話,社區發展是非常重要的指標。開源也是基礎架構型軟件未來的一個必然趨勢。目前很多世界領先的500強公司在選擇基礎架構型軟件時,一定要選擇一個有開源背景的軟件。所以我們從使用角度來講要做到廣和深,從技術角度來講,要慢慢走向一個更加成熟的平臺型技術。目前的系統從長遠講還有很多挑戰,這也是令開發人員以及社區人員非常興奮的一點,因為有新的東西可以做。我堅信這個系統會越來越豐富,越來越成熟,我們有一個長長的用戶需求列表,希望這個系統可以越來越全面,走向對系統定位更成熟的方向。
Alex:今天傾聽了浩源對整個數據行業發展的介紹,包括您所說的數據驅動的應用,整個生態,以及AI起來之后對行業背后的存儲和計算帶來的挑戰,特別是他作為一個startup的founder,怎么從一個researcher的角色過渡到一個創業者的經歷,有很多的思考滲透其中。希望大家關注Alluxio的社區,如果有興趣解決沖突的問題,也可以多了解他們的solution,加入他們的開源社區平臺。
另外李浩源博士,受邀在2018年12月6日中國大數據技術大會(BDTC 2018)主論壇上,作題為“Alluxio—統一化分布式虛擬文件系統”的主旨報告,敬請期待!同時也可以多關注我們Robin.ly平臺里邊的內容,后期會有更多類似的分享。謝謝!
李浩源:謝謝大家,謝謝Alex!
查看原文鏈接:https://www.robinly.info/blog/haoyuan-li-alluxio-robin-ly-entrepreneurship-talk
總結
以上是生活随笔為你收集整理的Spark Streaming 作者,Alluxio 的创始人李浩源:AI 潮流对做数据存储业务公司的挑战...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 个人作业1-数组(续1)
- 下一篇: 百度献礼高校开学季:AI Studio教