大数据系统基础 | 绪论
1 什么是大數據
1、Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing apllications.
-http://en.wikipedia.org/wiki/Big_data
2、如果一個數據集的規?;蛘呤瞧涮幚淼膹碗s性,用傳統的數據處理系統難以駕馭的話,我們就把這樣的數據集稱為大數據。
3、大數據系統是用于大數據分析處理的軟件系統。
2 大數據典型應用
1、沃爾瑪“啤酒加尿布”經典案例,1993年
2、塔吉特百貨孕婦營銷分析,2002年
3、谷歌對流感的成功預測,2009年
4、奧巴馬借助大數據連任成功,2012年
5、微軟大數據成功預測奧斯卡21項大獎,2013年
3 大數據的特點
1、大數據的規模,從TB,PB,EB,ZB甚至到了ZB級
2、多樣的數據類型
(1)結構化數據(關系):先有模式,后有數據
(2)半結構化數據(XML):先有部分模式
(3)非結構化數據(文本):先有數據,后有模式
3、大數據分析生命周期
獲取、記錄–>抽取、清洗–>集成、聚合–>分析、建模–>解釋、展示
5個共性的基礎問題:異構、規模、時效、隱私、協同
4、大數據深度加工
(1)數據Raw data
i.e.,uprocessed data,refers to a collection of numbers,characters and is a relative term
(2)信息Information
is that which informs,i.e. that from which data can be derived.
(3)知識Knowledge
can refer to a theoretical or practical understanding of a subject.
(4)智慧Insight
is the understanding of a specific cause and effect in a specitfic context
5、大數據處理方式
(1)批量 Batch
(2)在線 Online
(3)實時 Real-time
6、大數據的用戶:內部用戶和外部用戶
(1)Data Provider - makes available data internal and/or external to the system
(2)Data Consumer - uses the output of the system
(3)System Orchestrator - governance,requirements,monitoring
(4)Big Data Application Provider - instantiates application
(5)Big Data Framework Provider - provides resources and platforms
7、大數據的質量
(1)精確性:數據是否精確表述一個事實
(2)完整性:是否所有必要的數據都已經實現
(3)一致性:不同數據實體間關系是否一致
(4)時效性:數據及其起源是否能夠及時獲取
8、大數據的價值
(1)價值密度的稀疏
(2)大量樣本的長尾
4 大數據技術體系
1、大數據技術體系現狀
2、數據質量-無法回避的挑戰
(1)傳統數據質量僅通過ETL方式執行
–即抽取、轉換、加載,包括解析、模式分析等
–沒有完全覆蓋數據質量的基本性質
(2)挑戰
–分布式環境中,如何保障全局數據的一致性、精確性、完整性
–流處理環境中,如何保證時效性,例如,時序一致性。
(3)在大數據中保證絕對的數據質量并不現實
–高維、異質、模糊、海量、多變
3、存儲的老問題、新挑戰:多副本、高并發、分布式索引、流式技算、磁盤壓縮、集群管理等。
4、某些(核心)轉變
(1)Hash大于掃描
(2)單副本轉向多副本
(3)單階段轉為多階段
(4)壓縮不再解壓
5、大數據分析的特點
| 焦點 | 發生了什么 | 將要發生什么 |
| 數據 | 小規模、干凈數據,簡單的統計模型 | 大規模、多樣化、無關聯數據、語義模糊、復雜的預測模型 |
| 支持 | 因果分析:事件及其發生的原因 | 關聯分析:利用多個弱關聯數據源發現有潛在價值的結果 |
6、大數據要解決的主要問題
(1)監控動態流數據,跟蹤變化趨勢,而非僅僅考慮靜態數據
(2)和數據科學家一起工作,而非僅依靠數據分析師
(3)將分析工具集成到核心業務和營運環節
7、可視化的挑戰
將大規模數據中蘊含的信息、知識與規律,利用計算機軟件更好地揭示出來
8、計算范型
(1)數據找程序 -> 程序找數據
(2)Scale Up -> Scale Out
(3)傳統計算 -> 云計算 Virtual Machine & Multi Tenants
(4)CPU -> HPU (Crowdsourcing)
5 大數據生態系統
1、大數據生態系統
2、Hadoop的生態圈
3、Berkeley大數據處理平臺(BDAS)
BDAS的優勢
(1)綜合性的解決方案:在統一的框架內開發大數據音樂
(2)高效的解決方案:BDAS的目標是快速處理大量數據
| 文件系統 | HDFS | Tachyon | 數據讀寫速度提高300倍 |
| MapReduce | Hadoop | Spark | 運行速度提高10-100倍 |
| SQL查詢 | Hive | Shark | 查詢速度提高40倍 |
| 處理數據流 | Storm | Spark Streaming | 處理速度提高2倍 |
| 圖運算 | Hadoop | GraphX | 運算速度提高10倍 |
6 大數據技術挑戰
1、人們普遍認識到了數據“大”(Volume),不是數據科學面臨的全部挑戰,甚至不是主要挑戰。來自不同數據源的、不同類型、不同語義(Variety)的數據集合的深度綜合與融合問題遠沒有解決,同時,物聯網、傳感網、穿戴設備等機器數據的快速到達(Velocity),對數據處理的時效性提出了更大的挑戰,除此之外數據隱私與可用性(包括數據質量)問題更是存在挑戰
2、數據科學(包括大數據技術)的創新與探索剛剛起步,并行進在泥濘當中。
總結
以上是生活随笔為你收集整理的大数据系统基础 | 绪论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在线免费应用大全
- 下一篇: linux fcitx 安装,fcitx