大数据Re1
寫在前面的話
入行大數據兩年多以來,有很多感想,簡單說幾句。與其他所有計算機相關行業的學習類似,大數據的學習同樣是在網絡上找資料,看視頻,然后自己練手摸索,遇到問題找博客找平臺大佬提問題。
絕大部分時間都是一個人的負重前行,更不必說,網絡上的資料良莠不齊,既要去偽存真,又要相互映照,不同觀點不同闡述,不同理解之間產生的碰撞和疑問雖說難能可貴,但確實是學習過程中不小的障礙,概念原理該理解到什么層次,什么地方應該著重分析,什么地方可以簡單了解,都是新手難以把握的部分。
有感于此,筆者決心帶著最近幾年的淺薄經驗,重新以初學者的心態審視大數據的一些概念,框架,和原理,參照教材和行業書籍,帶著自己的理解,整理成系列文章,既是給自己理清頭緒,也希望能給新手一些小小的幫助,就心滿意足了。
1.大數據時代
1.1數據和信息
首先,對大數據最簡單的理解,就是大量的數據,那么大量的數據從何而來?我們知道,數據就是我們通過觀察,實驗或者計算得到的結果。與信息不同,離散的數據幾乎沒有任何實用價值。
而信息是一個宏觀的概念,泛指人類社會傳播的一切內容。1948年,數學家香農指出:信息是用來消除隨機不確定性的東西。科學的信息概念可以概括如下:
信息是對客觀世界中各種事物的運動狀態和變化的反映,是客觀事物之間相互聯系和相互作用的表征,表現的是客觀事物運動狀態和變化的實質內容。
1.2數據產生方式
可以說,數據產生方式的變革,孕育了大數據這一概念。總體來說,人類社會產生數據的方式大致經歷了如下三個階段:運營式系統階段、用戶原創內容階段和感知式系統階段。
-
運營式系統階段
人類社會最早大規模管理和使用數據,是從數據庫的誕生開始的。超市銷售系統,永航交易系統,股市交易系統等等,都建立在數據庫的基礎上。這個階段顯著的特征就是,數據的產生方式是被動的,只有實際的企業業務發生時,才產生新的數據并記錄到數據庫。
-
用戶原創內容階段
隨著互聯網的出現和發展,數據傳播更加快捷,Web 1.0時代,主要以門戶網站為代表,強調內容的組織與提供,大量上網用戶本身并不參與內容的產生。而Web 2.0時代,隨著移動互聯網和智能手機的普及,包括各大自服務平臺的搭建,上網用戶逐漸成為平臺內容的生產者,數據量開始急劇增長。
-
感知式系統階段
感知式系統階段與物聯網的發展緊密相關,物聯網中包含各種各樣的傳感器和攝像頭,這些設備每時每刻都在產生大量的數據,與Web 2.0時代的人工數據產生方式相比,物聯網中的自動數據產生方式,將在短時間內生成更密集、更大量的數據。
1.3大數據的概念
至此,對大數據這個概念,我們終于能夠給出一個比較合適的解釋,或者說大數據的四個特點:數據量大(Volume)、數據類型繁多(Variety)、處理速度快(Velocity)和價值密度低(Value)。
-
數據量大(Volume)
根據著名咨詢機構互聯網數據中心(Internet Data Center,IDC)做出的估測,人類社會產生的數據一直都在以每年50%的速度增長,也就是說,每兩年就增加一倍多,這被稱為“大數據摩爾定律”。這意味著,人類在最近兩年產生的數據量相當于之前產生的全部數據量之和。2020年,全球總共擁有約44ZB的數據量,與2010年相比,數據量將增長近40倍。
-
數據類型繁多(Variety)
大數據的數據來源眾多,科學研究、企業應用和Web應用等都在源源不斷地生成新的類型繁多的數據。生物大數據、交通大數據、醫療大數據、電信大數據、電力大數據、金融大數據等,都呈現出“井噴式”增長,所涉及的數據量十分巨大,已經從TB級別躍升到PB級別。各行各業,每時每刻,都在生成各種不同類型的數據。
-
處理速度快(Velocity)
大數據時代的數據產生速度非常快。在Web 2.0應用領域,在1分鐘內,新浪微博可以產生2萬條微博,Twitter可以產生10萬條推文,蘋果可以產生下載4.7萬次應用的數據,淘寶可以賣出6萬件商品,百度可以產生90萬次搜索查詢的數據。大名鼎鼎的大型強子對撞機(Large Hadron Collider,LHC),大約每秒產生6億次的碰撞,每秒生成約700 MB的數據,同時有成千上萬臺計算機在分析這些碰撞。
-
價值密度低(Value)
大數據時代的數據產生速度非常快。在Web 2.0應用領域,在1分鐘內,新浪微博可以產生2萬條微博,Twitter可以產生10萬條推文,蘋果可以產生下載4.7萬次應用的數據,淘寶可以賣出6萬件商品,百度可以產生90萬次搜索查詢的數據。大名鼎鼎的大型強子對撞機(Large Hadron Collider,LHC),大約每秒產生6億次的碰撞,每秒生成約700 MB的數據,同時有成千上萬臺計算機在分析這些碰撞。[1]
出現了巨量的數據,人們自然而然想要利用這些數據來改造世界。信息科技需要解決信息存儲,傳輸和信息處理三個核心問題,這也是大數據要面對的主要問題。存儲設備的容量在不斷增加,CPU的計算能力也在不斷提升,但是另一方面越頂級的CPU,越大的存儲容量就意味著越高昂的價格,消耗的財力是另一方面,單臺機器的性能不管多么優越,總有其性能瓶頸,分布式技術應運而生。
1.4分布式的概念
分布式技術為海量數據的存儲,傳輸和運算提供了可能。廣泛的說,相比于傳統的單機架構,分布式架構解決了互聯網應用的兩大難題:高并發和高可用,這兩大難點也正是單機架構的缺點:性能瓶頸和單點故障。針對海量數據,分布式存儲將數據存儲到成百上千臺服務器上,滿足了海量數據的存儲需求;分布式計算提供了快速數據處理的能力
[1]林子雨. 大數據技術原理與應用[M].人民郵電出版社:大數據創新人才培養系列, 201701.301.
[2]Zhiwu Wang. God-Of-BigData[Z], -項目系列文章
總結
- 上一篇: 网络:TCP维护安全可靠机制提供的定时器
- 下一篇: 嵌入式面试中常见的问答题(线程进程、TC