大数据技术原理与应用 第三版 林子雨 期末复习(一)大数据概述 第一章 P2
大數據技術原理與應用 第三版 林子雨 期末復習(一)大數據概述 第一章 P2
- 大數據概念(4V)
- 三次信息化浪潮(每隔15年發生一次)
- 大數據對于研究思維的影響
- 數據產生的三個階段
- 大數據計算模式
- 大數據與云計算、物聯網
- 概念
- 云計算種類與服務模式
- 大數據與云計算、物聯網的關系
大數據概念(4V)
1 volume (大量)
隨著傳感器等技術的應用,數據規模逐漸增大,而大數據的規模通常達到PB EB級。
2 variety (多種)
大數據涉及到的數據種類多,包含大量結構化與非結構化數據。
3 velocity (高速)
同一時間下有大量數據產生,并且某些數據價值會隨著時間流逝下降,因此大數據對數據處理的實時性要求較高。
4 value (價值)
對于大數據而言價值密度較低,整體價值較高,很多有價值的信息分散于海量數據當中。
三次信息化浪潮(每隔15年發生一次)
| 第一次 | 1980 | 個人計算機 | 信息處理 |
| 第二次 | 1995 | 互聯網 | 信息傳輸 |
| 第三次 | 2010 | 大數據、云計算、物聯網 | 信息爆炸 |
大數據對于研究思維的影響
1 全樣而非抽樣
大數據時代,隨著數據存儲與分析能力的提升,更傾向于使用全樣數據而非抽樣數據解決問題。
2 效率而非精準
由于使用了全樣數據因此在傳統分析方法中誤差的放大問題得以解決,同時由于數據量的激增所以可以犧牲部分精確性保證效率。
3 相關而非因果
在大數據時代更感興趣的是事物之間的相關性而非因果性。
數據產生的三個階段
1 運營式系統階段(被動)
傳統數據產生隨著運營信息產生而產生,通常存儲于SQL中。
2 原創式系統階段(主動)
智能手機等移動設備的出現加速了用戶原創性內容的產生。
3 感知式系統階段(自動)
物聯網的發展與傳感器的應用最終導致了大數據量的產生。
大數據計算模式
大數據計算模式 解決問題 代表產品
批處理 大規模數據的批量處理 MapReduce Spark
流計算 實時流數據 Stom Flink Spark streaming
圖計算 大規模圖結構 GraphX
查詢分析 大規模數據的存儲管理和查詢分析 Hive
| 批處理 | 大規模數據的批量處理 | MapReduce、Spark |
| 流計算 | 實時流數據 | Stom、Flink、Spark streaming |
| 圖計算 | 大規模圖結構 | GraphX |
| 查詢分析 | 大規模數據的存儲管理和查詢分析 | Hive |
大數據與云計算、物聯網
概念
云計算:通過網絡獲取計算資源。
物聯網:物物聯網,可以看作互聯網的延伸。
云計算種類與服務模式
大數據與云計算、物聯網的關系
大數據注重于對海量數據的存儲、處理、分析。
云計算注重于通過網絡提供廉價計算資源。
物聯網側重實現物物相連,是創新應用開發核心。
本文及后續文章內容均由個人總結,僅用于復習記錄,如發現錯誤請大家伙指正,侵刪。
總結
以上是生活随笔為你收集整理的大数据技术原理与应用 第三版 林子雨 期末复习(一)大数据概述 第一章 P2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转】store_schema.sql
- 下一篇: win7NVIDIA显卡驱动升级时卡住