《大数据时代》摘录
本文內容摘自《大數據時代》,浙江人民出版社,2013年1月第1版。
引言
大數據并非一個確切的概念。最初,這個概念是指需要處理的信息量過大,已經超出了一般電腦在處理數據時所能使用的內存量,因此工程師們必須改進處理數據的工具。這導致了新的處理技術的誕生,例如谷歌的MapReduce和開源Hadoop(最初源于雅虎)。P008
就像望遠鏡能夠讓我們感受宇宙,顯微鏡能夠讓我們觀測微生物,這種能夠收集和處理海量數據的新技術將幫助我們更好的理解世界。P009
真正的革命并不在于分析數據的機器,而在于數據本身和我們如何運用數據。P010
大數據的核心就是預測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。但是這種定義是有誤導性的。大數據不是要教機器像人一樣思考,相反,它是把數學算法運用到海量的數據上來預測事情發生的可能性。P016
在不久的將來,世界許多現在單純依靠人類判斷力的領域都會被計算機系統所改變甚至取代。P016
我們大部分的習俗和慣例都建立在一個預設好的立場上,那就是我們用來進行決策的信息必須是少量、精確并且至關重要的。但是,當數據量變大、數據處理速度加快,而且數據變得不那么精確時,之前的那些預設立場就不復存在了。此外,因為數據量極為龐大,最后做出決策的將是機器而不是人類自己。P021
第一部分 大數據時代的思維變革
在某些方面,我們依然沒有完全意識到自己擁有了能夠收集和處理更大規模數據的能力。我們假定自己只能收集到少量信息,結果就真的如此了。這是一個自我實現的過程。P029
統計學家們證明:采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數量的增加關系不大。
認為樣本選擇的隨機性比樣本數量更重要,這種觀點是非常有見地的。
當收集和分析數據都不容易時,隨機采樣就成為應對信息過量的辦法。P033
在宏觀領域起作用的方法在微觀領域失去了作用。隨機采樣就像是模擬照片打印,遠看很不錯,但是一旦聚焦某個點,就會變得模糊不清。P035
只研究樣本而不是整體,有利有弊:能更快更容易地發行問題,但不能回答事先未考慮到的問題。P036
蘋果公司的傳奇總裁史蒂夫·喬布斯在與癌癥斗爭的過程中采樣了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。這種獲得所有數據而不僅是樣本的方法將他的生命延長了好幾年。P036
生活中真正有趣的事情經常藏匿在細節之中,而采樣分析法卻無法捕捉到這些細節。谷歌流感趨勢預測并不是依賴于對隨機樣本的分析,而是分析了整個美國幾十億互聯網檢索記錄。P037
大數據中的“大”不是絕對意義上的大,雖然在大多數情況下是這個意思。大數據是指不用隨機分析法這樣的捷徑,而采用所有數據的方法。谷歌流感趨勢和喬布斯的醫生們采取的就是大數據的方法。P039
據估計,只有5%的數字數據時結構化的且能適用于傳統數據庫。如果不接受混亂,剩下95%的非結構化數據都無法被利用,比如網頁和視頻資源。通過接受不精確性,我們打開了一個從未踏足的世界的窗戶。P064
如今,據說亞馬遜銷售額的三分之一都是來自于它個性化的推薦系統。有了它,亞馬遜不僅使很多大型書店和音樂唱片商店歇業,而且當地數百個自認為有自己風格的書商也難免受轉型之風的影響。P070
相關關系的核心是量化兩個數據值之間的數理關系。相關關系強是指當一個數據值增加時,其他數據值很有可能也會隨之增加。相反,相關關系弱就意味著當一個數據值增加時,其他數據值幾乎不會發生變化。P071
通過給我們找到一個現象的良好的關聯物,相關關系可以幫助我們捕捉現在和預測未來。如果A和B經常一起發生,我們只需要注意到B發生了就可以預測A也發生了。P072
建立在相關關系分析法基礎上的預測是大數據的核心。P075
杜西格《習慣的力量》(The Power of Habit) P078
第二部分 大數據時代的商業變革
只要一點想象,萬千事物就能轉化為數據形式,并一直給我們驚喜。P123
技術環境的限制使古典經濟學家在經濟構成的認識上像是戴了一副墨鏡,而他們卻幾乎沒有意識到這一點,就像魚不知道自己是濕的一樣。P131
不同于物質性的東西,數據的價值不會隨著它的使用而減少,而是可以不斷地被處理。P132
數據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。P134
微軟只看到了拼寫檢查作為文字處理這一個目的的價值,而谷歌卻理解了其更深層次的價值。不僅利用錯別字開發了世界上最好、最新式的拼寫檢查器來提高搜索質量,而且將其應用于許多其他服務中,如搜索的“自動完成”功能,Gmail、谷歌文檔甚至翻譯系統。P146
Udacity、Coursera和EDX等在線教育課程通過跟蹤學生的Web交互來尋找最佳的教學方法。班級人數成千上萬,產生的數據也十分驚人。P148
如今,我們很可能認為谷歌和亞馬遜等網站是大數據的先驅者,但事實上,政府才是大規模信息的原始采集者,并且還在與私營企業競爭他們所控制的大量數據。P149
大數據對于公共部門的適用性同對商業實體是一樣的:大部分的數據價值都是潛在的,需要通過創新性的分析來釋放。P149
最近有一個想法得到了公認,即提取政府數據價值最好的辦法是允許私營部分和社會大眾訪問。這其實是基于一個原則:國家收集數據時代表的是公民,因此它也理應提供一個讓公民查看的入口,但少數可能會危害到國家安全或他人隱私權的情況除外。P149
公司賬面價值和市場價值之間的差額被記為“無形資產”。20世紀80年代中期,無形資產在美國上市公司市值中約占40%,而在2002年,這一數字已經增長為75%。無形資產早期盡包含品牌、人才和戰略這些應計入正規金融會計制度的非有形資產部分。但漸漸地,公司所持有和使用的數據也漸漸納入了無形資產的范疇。P153
投資者也開始注意到數據的選擇價值。擁有數據或能夠輕松收集數據的公司,其股價會上漲;而其他不太幸運的公司,就只能眼看著自己的市值縮水。P154
在大數據時代,數據持有人傾向于從被提取的數據價值中抽取一定比例作為報酬支付,而不是敲定一個固定的數額。這有點類似于出版商從書籍、音樂或電影的獲利中抽取一定比例,作為支付給作者和表演者的特許權使用費。P154
"如果你想成功,你不應該成為一個普通的、可被隨意替換的人,你應該成為稀缺的、不可替代的人。" ——谷歌首席經濟學家哈爾·范里安(Hal Varian)P161
所謂大數據思維,是指一種意識,認為公開的數據一旦處理得當就能為千百萬人急需解決的問題提供答案。P167
現今,我們正處在大數據時代的早期,思維和技能是最有價值的,但是最終,大部分的價值還是必須從數據本身來挖掘。只有金子才是真正值錢的。P172
微軟掌握著技術的核心專利,但是它卻認為一個獨立的小公司可能更容易被接受、更有利于匯聚行業內各方的數據和從知識產權中獲利更大。P177
認為數據自身而不是技術和思維更值錢的想法,在大數據時代的多筆商業交易中都有所體現。2006年,微軟以1.1億美元購買了埃齊奧尼的大數據公司 Farecast。而兩年后,谷歌以7億美元的價格購買了為Farecast提供數據的ITA Softwart公司。P178
當然,行業專家是不會真正消亡的,只是他們的主導地位會發生變化。未來,大數據人才會與他們一樣身居高位,就像趾高氣揚的因果關系必須與卑微的相關關系分享它的光芒一樣。P181
數學和統計學知識,甚至是有少許編程和網絡科學的知識將會成為現代工廠的基礎,一如百年前的計算能力或者更早之前的文學。P182
大部分人往往都通過經驗、回憶以及連蒙帶猜地做決定。但是,隨著管理決策越來越受預測性分析和大數據分析的影響和控制,由直覺做決定的情況將會被徹底改變。P183
雖然像亞馬遜和谷歌一樣的行業領頭羊會一直保持領先地位,但是和工業時代不一樣,它們的企業競爭力并不是體現在龐大的生產規模上。
公司可以根據實際需要調整它們的計算機技術力量,這樣就把固定投入變成了可變投入,同時也削弱了大公司的技術配備規模的優勢。P185
聰明而靈活的小公司能享受到非固有資產規模帶來的好處。數據可以授權但是不能被占有,數據分析能在云處理平臺上快速而且低成本地運行,而授權費用則應從數據帶來的利益中抽取一部分。P187
?
第三部分 大數據時代的管理變革
伴隨著從核技術到生物工程學其他領域的發展,人類總是先創造出可能危害自身的工具,然后才著手建立保護自己、防范危險的安全機制。在這方面,大數據也和其他領域的新技術一樣,帶來了無法徹底解決的挑戰。P232
擁有知識曾意味著掌握過去,現在則更意味著能夠預測未來。P239
我們尋找原因的想法可能被高估了,很多情況下,弄清楚是什么比找尋為什么更加重要,因為前者表明事實才是我們生活和思維的基礎。它們可能沒有答案;相反,它們是關于人在宇宙中的位置以及在喧囂混亂、不可理喻的世界中尋找意義這一永恒爭論的一部分。P239
……我們之所以能做所有這些事,新工具只是個很小的因素,無論是更快的處理器、更多的存儲器,還是更智能的軟件和算法。這些固然重要,但是更為根本的原因是我們擁有了更多的數據,繼而世界上更多的食物被數據化了。P241
沒有什么是上天注定的,因為我們總能就手中的信息制定出相應的對策。大數據預測結果也并非鐵定,而只是提供了一種可能性,也就是說,只要我們愿意,結局可以改寫。我們可以判斷出迎接未來的最佳方式,搖身變做未來的主人。P245
大數據提供的不是最終答案,只是參考答案,為我們提供暫時的幫助,以便等待更好的方法和答案出現。這也提醒我們在使用這個工具的時候,應當懷有謙恭之心,銘記人性之本。P247(完)
轉載于:https://www.cnblogs.com/geekham/archive/2013/02/23/2923192.html
總結
- 上一篇: 3DMM之EOS 原理解析
- 下一篇: How to set up native