《大数据》第1期“论坛”——数据技术时代的未来
數據技術時代的未來
張茂森
阿里巴巴網絡有限公司 北京 100022
摘要:數據應用是數據技術時代的價值承載,數據技術時代和已有的信息技術時代的區別在于是否將數據作為生產資料。信息技術時代解決的是“過程”智慧的問題,從而提升效率,而數據技術時代解決的是“感知”和“協同”智慧的問題,使效率大幅提升并能完成業務的創新。歸納了數據應用類產品的分類,給出了一個通用的數據應用實現架構,同時對大數據的數據共享和交換的本質和難點做了簡要分析。
關鍵詞:大數據應用;數據共享與交換;信息技術;數據技術
Future of Data Technology Era
Zhang Maosen
Alibaba.com Limited, Beijing 100022, China
Abstract: Data application is the key element of data technology (DT) era, the difference between DT and information technology (IT) is whether data is the key product element. IT suppose to solve the “process” problem to make business more effective, but DT suppose to solve the “cognitive” and “collaborative” intelligence to make business to renewable and creative. The catalog of data application product was given. A general architecture of data application platform and organization was proposed. The key and difficult point of data sharing and exchange were analyzed.
Key words: big data application, data sharing and exchange, information technology, data technology
1 引言
前段時間,杰克·馬的CEBIT歐洲巡回演唱會非常成功。面對從總理到各大商業巨頭,杰克堅定無比地講述了一個數據技術時代的夢想,不得不說,杰克真的是神奇的外星人。杰克說過,他負責吹牛,然后他的團隊負責把他吹過的牛實現,從而打造了一個如此強大的阿里巴巴,讓美國人甘心叫BABA的公司。
這次杰克在歐洲巡回演唱會又吹了一個什么牛呢?這頭牛不再是電子商務,而是DT(datatechnology,數據技術)。DT和IT 的區別是什么?為什么DT就是利他,而IT(information technology,信息技術)就是利己?筆者一直很困惑,IT不是也讓人們的生活更美好了嗎?從經濟學的角度來講,反而是人人利己創造了人類的進步。
2 IT與DT
筆者查了好多資料,也跳出互聯網圈子接觸了傳統行業的朋友,似乎有些理解了。
IT這個詞誕生于何時,筆者暫時沒有查到,但是它的大規模商業化發端應該是20世紀70年代,具體是指利用電腦和網絡讓企業的內外業務與流程更加高效。換句話說,沒有IT系統,業務也能運行,只是“慢、卡、丑、挫”而已,當然當大家都用上IT系統后,就再也回不去了。
IT的引入讓企業擁有了更強大的業務能力,使全球化、大規模、深層次的協作變成可能,讓大象也能跳舞,所以說IBM是通過輸出IT能力,讓別的大象跳舞,從而讓自己在資本市場也風姿綽約。
企業級IT市場的原有商業模型如圖1所示。
圖1 企業級IT市場的原有商業模型
在舊有模型下,IT解決的是企業自有業務流程的信息化問題,比如OA系統、CRM系統、ERP系統、績效管理系統、BOSS等,這些系統依賴的架構就是應用代碼(BS或者CS)+數據庫+PC服務器。
互聯網企業的出現,成為了一個IT產業的異類,一家家什么都不生產卻又市值奇高的公司,當然是泡沫。只是互聯網企業經歷一個個大起大落后,越發青春煥發,甚至都開始秀健碩的肱二頭肌,開始講顛覆了。背后的原因是什么?互聯網企業正因為沒有實體生產,經歷的過程正好契合了DIKW的知識金字塔,如圖2所示。要知道人類歷史的推進就是知識的累積和進化,近100年人類社會的高速發展,也是知識的超常規累積的結果。
圖2 DIKW金字塔
第一代的互聯網企業完成的是實體到數據(data),把線下的東西數字化后搬到線上來,比如以Yahoo公司為代表的Portal。
第二代互聯網企業完成的是從數據到信息(information),Google公司把全類目的數據聚合、整理、結構化后索引起來,變成了可供大家快速檢索的信息。
第三代互聯網企業完成的是從信息到知識(knowledge),目前還在快速推進,一種企業是通過人和人的連接,從而利用人機結合來填補信息到知識的鴻溝,比如Twitter、Facebook;一種企業是通過大數據+機器學習+人工智能來填補信息到知識的鴻溝,比如Google。然而,這兩個方向隨著后續的推進和大數據的介入,正在融合為一。
可以看到這些互聯網企業在“吹泡沫”的同時,也構建起了從實體到數據、從數據到信息、從信息到知識的基礎架構和設施,比如非結構化數據的處理、分布式數據處理、人工智能與機器學習以及在專業領域的方法論(如精準營銷、搜索引擎、社交關系等)。
目前,傳統的IT企業幫助傳統企業僅僅完成了業務流程到部分數據化、數據到部分信息化的過程。換句話說,傳統IT與自動化解決的是“流程”智慧的問題,“感知”與“協同”智慧是由人來完成的。比如傳統汽車制造,流水線就是“流程”智慧,大幅提升運行效率,而流水線上的熟練工人依靠他們的“感知”與“協同”智慧保證了高品質汽車的生產。
傳統企業中的CRM、ERP解決的也是過程智慧的問題,大幅提升客戶管理和生產管理的效率,而使用軟件的業務人員依靠他們的“感知”與“協同”智慧(領域經驗與知識等),保證了業務的順暢運行和優化。
互聯網企業更是如此,所有的業務天生就是信息化的,處處是IT也就沒有IT了,互聯網企業的價值由于輕資產的模式反而落在人上面,如它的技術人員、運營人員和產品人員。互聯網企業要應對快速變化的市場,必須依靠這些人的“感知”與“協同”智慧來推進公司的創新與變革,從而不被時代拋棄。“流程”智慧在其中的附加價值已經不是很大了,云計算等基礎設施的出現,更加劇了這一點。
而最近的10年,情況在發生改變,一個是工業智能機器人的出現,它們具有了對周圍環境的感知能力,并且擁有了更強大的學習能力,如果進入寶馬最先進的工廠,基本上看不到多少工人了。
CRM、ERP等傳統IT軟件中也越來越多地引入了智能推薦、智能搜索、決策輔助、運營輔助的功能,試圖大幅提升人在“感知”與“協同”方面的效率。而互聯網企業則更不用說,從Google大腦到深度學習、無人駕駛,無不在把“感知”與“協同”能力推向極致。對于高階智能的追求,讓工業4.0和互聯網+走到一起,而孕育智能的基礎就是“大數據”,換句話說,大數據將工業4.0和互聯網+粘合起來了。
3 DT時代的應用架構
如同多次工業革命的進程一樣,先是基礎原理技術的突破,如蒸汽動力技術、電力技術、信息技術,然后真正讓社會福祉得到巨大提升的是,構建于這些原理平臺型技術上的廣闊而多姿多彩的應用型技術。筆者相信,大數據技術在經歷最近10年的技術原理探索與構建后,大數據應用將真正地把人類引入“數據技術時代”。
說實話,大數據最成熟的應用目前看來還是在互聯網領域,從搜索到營銷再到智能手機,處處都有數據作為生產資料的影子,通過對數據價值的挖掘來提升業務的能力。最近筆者走訪了很多傳統的大型企業和政府部門,和大家聊需求的同時,也讓筆者從應用架構的視角來思考相關的問題,找尋其中的共性。要做到真正的大數據應用,有兩點缺一不可。
(1)對業務的理解、對數據的剖析和大數據分析的方法論
沒有對業務的理解就沒有應用場景和商業未來規劃,就根本不會有應用的誕生,往往這一步是最難的。而大數據應用還需要對數據進行深入理解,如自己有哪些數據、數據的分布如何、數據質量情況如何等。最后是大數據分析的方法論,要把數據當作生產資料而非報表資料,對數據中蘊藏的舊有現象,通過多維度的拼接和長歷史的對比,就能夠構建起關聯關系,從而進行推演和預測,進而構建因果機理。
(2)大數據開發平臺與數據科學團隊
現在市面上有很多的開發平臺或者PaaS平臺,都在標榜自己能做大數據,然后像傳統IT時代一樣把軟件賣出去。筆者認為這樣是不對的,大數據平臺除了能夠進行數據開發、建模、集成等工作之外,還需要大量真正的非傳統數據技術能力的支撐,如數據安全、數據可信交換或共享、數據探索與協作等,這就需要能夠使用這個平臺的人,即數據科學團隊。數據科學團隊不是科學的老學究,而是一群不同側重的角色組合,如偏業務與創新、業務數據模型與算法、基礎數據處理。而現實中往往需要一個人具備以上多種角色,這可能也是他們被稱為數據科學家的原因。構建數據應用的后端結構如圖3所示。
圖3 構建數據應用的后端結構
4 大數據的交換與共享
任何一次工業革命里面都會有基礎的、可被標準化交換與共享的載體,如蒸汽、電力、公知信息。在大數據時代,數據的交換與共享也是必然的,如果數據的能力僅僅是鎖在政府里,鎖在幾個互聯網巨頭、幾個工業巨頭手里,是不能構建起多姿多彩的應用世界的。
而數據交換與分享的形態是由數據應用產品的形態決定的。對數據應用產品的分類如圖4所示,越到頂層的數據發揮的價值越大,對大數據的需求也越大(如體量、多樣性與全面性、穩定性和質量)。但是,從數據交換的角度來講,越往上層越容易。其實RTB就是一個關聯、推薦類的數據產品,完成了個人屬性的數據交換,銀行的征信也是一樣的。之所以比較容易,是因為交換的數據是業務鏈條中的最終結果數據,它代表的是業務形態,而如果這個業務形態能夠被公眾和社會接受,交換的數據也是沒有問題的,換句話說,此時交換的不是數據而是業務價值。但是對比、剖析類的數據產品要進行交換就非常困難了,Facebook開放平臺、淘寶開放平臺面臨的一些困境就是基于此,開放出去的是擁有無數未知和可能性的信息。這也是前幾年很多Data Marketplace模式的公司衰亡的本質原因,數據一旦被真正地“交換”和“分享”,將造成巨大的未知,如信息的泄露、價值的低估和市場的撕裂。
圖4 數據應用產品的分類
而隨著互聯網和工業4.0的快速發展,越來越多的領域需要關聯/推薦、預測類的數據產品幫助他們進行業務創新和優化,快速獲取價值,也就是說,數據交換與共享的大幕開始啟動。如何才能迎接這個趨勢而又不陷入已有的錯誤中呢?答案可能是數據可“用”不可見。因為從應用的角度來看,大家不是需要數據,而是需要數據在雜交、關聯、分析、預測后,在對應應用的業務領域的價值,也就是說要的是業務結果。如圖5所示,數據可被使用,但是數據生產資料不能被拿走,而是被鎖在一個可信平臺中,平臺輸出的是業務結果。
圖5 數據可用不可見
數據可“用”不可見,還有兩個最關鍵的事情尚未解決:平等可信的交換/交易模型與機制;定價和市場管理模型與機制。
最近幾年經濟學的成就也集中在了博弈論以及衍生出的市場機制設計方向。筆者相信,隨著整個社會對大數據應用的認同和需要,工業企業+互聯網企業+經濟學模型+合理的監管一定能找到問題的解法。
整個社會把數據作為生產資料來看待才剛剛開始,這也正是大量應用蓬勃發展的契機。很幸運能生活在這個技術、業務劇烈變革,同時社會也在變革的時代,充滿了夢想實現的機會,數據人加油!
總結
以上是生活随笔為你收集整理的《大数据》第1期“论坛”——数据技术时代的未来的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者:兰艳艳,女,中国科学院计算技术研究
- 下一篇: 工作中由于任务分配注意问题