大数据就是非相关数据的相关性
大數據的意義在于從海量的數據里尋找出一定的相關性,然后推演出行為方式的可能性。從這個角度來看,很多人所談的大數據是相關數據的優化和整理概念,壓根不是一回事
對大數據我不是專家,但由于大數據也是開放性的命題,所以我也就自己的認知水平,談談我對大數據的看法,更多集中在數據的金融應用上。
第一節 什么是大數據
一、大數據并非新事物
早在1980 年,著名未來學家阿爾文· 托夫勒就在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮”。不過,直到2009 年前后,“大數據”才成為互聯網信息技術行業的流行詞匯。2013 年,隨著互聯網金融的空前熱門,也才真正意義上將“大數據”推到了高潮。
如果探究互聯網金融與大數據流行之間的關聯,背后有一個很關鍵的因素,就是互聯網金融一直無法解答一個核心命題——風險控制。即互聯網沒有找到比傳統金融更具優勢的風控方法,從而使得互聯網金融在興起的過程中飽受質疑。
而橫空出世的大數據成為了互聯網金融支持者的一個重要精神支柱。大數據越不可測,就越具備想象力,對互聯網金融而言,就越具解釋力。
那么什么是大數據呢?我談談自己的看法。
大概四五年前,美國《商業周刊》資深作家約翰·伯恩一本暢銷書《藍血十杰》,對今天中國互聯網金融和大數據理論愛好者們產生了極大的影響。這本書講述了十個年輕人,出身名校哈佛,心懷理想,是天才中的天才。他們二戰期間成為了美國空軍的后勤英雄,卓有成效地將數字化管理模式應用于戰爭,為盟軍節約了十億美元的耗費,幫助盟軍取得了勝利。
這說明數據的分析和管理,很早就被用于國家戰爭和商業運營了,為什么現在非要在數據前面加個“大”字呢?
上次在鴻儒論道,聽社科院何帆教授的課程,他提到,從本質上講一切的社會現象都是統計現象,并不像實驗室里的試驗那樣有明確的因果關系。如經濟學的供求定理就是一個統計規律。但是人類認知能力中最差的也是統計思維。
諾貝爾獎得主、心理學家卡尼曼曾經講過,人類頭腦中有兩套思維。一套思維是本能的,比如我們的語言能力、模仿能力、第六感,等等,都是與生俱來的。如麻省理工學院的語言學家喬姆斯基指出,小孩子為什么到3 歲就能學會說話,而要到十幾歲才能學會微積分呢?語言學得這么快,不是小孩子自己能學會的,是他出生時大腦中就預裝了一套系統。
此外,察言觀色的能力也不用特意學或教,小孩子就已經會了。所以這是人類的第一套系統,也是能夠讓我們快速反應的系統。第二套系統,是當我們做數學推理,尤其是統計分析時需要用到的。第二套系統運轉很慢,因為占的內存太大,往往我們犯錯誤就是因為決策太快,在統計判斷的方面出現問題。
所以,我們在談大數據的時候,都認為是個新潮的概念,但是作為方法論而言,大數據已經有很長的歷史了。那為什么現在大家突然講大數據了呢?主要是因為現在的數據越來越多,一方面隨著IT 革命,存儲和計算能力在不斷提高,未來可能會出現無限存儲、瞬間計算的新時代;另一方面,能夠被數據化的東西也越來越多,過去只有數字,而會計制度出來后,經濟活動開始可以通過記賬數據化。
現在大家拿的pad 和電子閱讀器中的文字、圖像也是數字化的。隨著能夠變成數據的東西越來越多,計算和處理數據的能力越來越強,大家突然發現這個東西很有意思。一旦把統計學和現在大規模的數據融合在一起,就會顛覆很多我們原來的思維。
二、大數據就是非相關數據的相關性
現在大數據被說得神乎其神的一個重要原因,是普遍認為大數據可以有效推演和設定未來的走向,極為精準地推斷某些事件出現的概率,體現在金融業里,就是可以很好地控制風險。那么,真的如此嗎?
寫于1942 年的科幻小說《銀河帝國》,就講述了在銀河帝國最繁榮的時候,國內最有才華的數學家謝頓說他能夠預知未來歷史的變化以及潛在的危機,只要數據量足夠大。當時的人口已經是上萬億,足夠他準確預測未來的變化。
所以,謝頓悄悄建了一個“基地組織”,還有“第二基地組織”。當出現所謂的“謝頓危機”時候,大家就把他事先錄好的錄像調出來,他在錄像里會闡述已經預測到的此次危機及其99% 的可能性,并告知人們要怎么做。
書里的謝頓教授首先是個數學家,同時也是個心理學家。他從上千兆的社會民眾中進行行為心理學的樣本分析,來推斷社會的演變。他把各種偶發性因素都設立了變量的幅度范圍,一旦出現異變就予以撲殺,以使社會回歸到設定的進程去。
他也做了一些基本的定義,這些定義都隱含了一個社會假設,那就是“作為研究對象的人類,總數必須達到足以用統計的方法來加以處理,還有一個必要的假設是群體中必須沒有人知道本身已是心理分析的樣本,如此才能確保所有的反應都是真正的隨機”。
可以看出,大數據的意義在于從海量的數據里尋找出一定的相關性,然后推演出行為方式的可能性。從這個角度來看,很多人所談的大數據是相關數據的優化和整理概念,壓根不是一回事。
何謂非相關數據的相關性?比如說公共衛生領域,研究傳染病是很難的,因為發病快,病人馬上就死了,很難像癌癥那樣去研究它的病理學是什么。那最后是怎么發現傳染方式的呢?以霍亂為例,實際上就是有兩張地圖,一張是得霍亂病人的分布圖,另外一張是倫敦市水井的分布圖,最后發現兩張圖之間有一些聯系規律,所以覺得可能跟飲水有關。
在科學不發達的過去,我們是通過水井跟霍亂這兩種非相關數據的分布尋找到了相關性,雖然不知道為什么,也無法解釋,但是卻能做出較好的防范。這種非相關數據的相關性是偶然發現的,并非刻意尋找的結果。
原因在于,過去沒有數據匯集技術,導致數據量太少,根本無法對非相關數據進行集中比對。另外一方面也是因為數據的處理能力有限,即使數據匯集了,也無法有效進行數據處理,要找出各種數據的相關性的手段極為有限。
所以,過去的數據挖掘也好,數據分析也罷,更多還是對帶有相關性的數據的整理和分析,事前都是有邏輯作為基礎的。包括《藍血十杰》里面的行為,也包括阿里金融的所謂大數據風控等,本身就是可推導的數據,在此之上進行概率計算。如果這些都定義為大數據,那么大數據就不是什么新概念。要講大數據,必然是海量的不同維度數據的相關性分析,對于本身具備相關性的數據,頂多稱為數據優化罷了。
我自己覺得,大數據的出現更多是基于兩個方面:第一是互聯網使得數據產生量大大增加,有了現實的不同數據的比對和處理的可能性;第二是計算能力大幅度提高,原先單一的中央式計算方式變成了以云計算為特征的分布式計算方式,使得處理能力海量增加,最終可以把統計學和現在大規模的數據融合在一起,從而發現很多有意思的事情。
一方面是發現了很多有相關性的事件,但是不知道為什么相關;另外一方面是發現很多原先認為是沒有關聯的事情,原來內在都是有聯系的。最終可以成為我們決策的依據,大大提升我們的管理效率或者處理事情的能力,也極大地顛覆我們原來的思維。
我曾開玩笑說,我們最早的大數據思維是什么呢?是周易衍生出來的命理學派,絕對是大數據的思維。你算個卦,然后說某個人晚上死,他就死了。兩者沒有任何的關系啊,但是從統計結果來看,往往就是準確率極高。是什么維持了兩者相關,很多時候有因果關系,很多時候無因果關系,當然也可能是還不知道的無法驗證的因果關系。
我在《支付革命》里提出過,少扯大數據,多談小數據。為什么呢?因為大數據要盡量收集更多的非相關數據,來計算其相關性,必然帶有極大的成本和結果的不確定性。成本大,是因為數據收集成本和整理成本都很高;結果不確定,是因為都是非相關數據,你之前是很難確定這些數據的相關性的,需要不斷碰撞和測試,不但耗費成本,而且很可能窮盡之后發現,這些數據真的是不相關,所以投入和產出就經常極不對稱。
上次碰到惠普的副總裁提大數據的概念,他說,按照他們的理解,全球有能力進行所謂大數據應用的公司不會超過50 家,我自己的推測也差不多。很多公司即使可以用大數據,往往所獲得的收益也根本不足以覆蓋巨額的成本。我在一次峰會上聽到很多P2P 公司在說,它們可以通過業務沉淀出極大的數據,然后用大數據技術來提高風控質量。這叫啥?叫典型的無知者無畏。
推薦閱讀文章
大數據技術分享Zookeeper集群管理與選舉
大數據培訓技術分享:Hbase精解
大數據必修三大課程
總結
以上是生活随笔為你收集整理的大数据就是非相关数据的相关性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java开发面试自我介绍模板_java求
- 下一篇: git文件没有绿色红色小图标解决办法