大数据系统基础导论
大數據系統基礎導論
1、從數據到大數據
當輸入數據x大到超出了一定的計算能力c或可容忍的時間t,即成為大數據問題
amplab最火的實驗室 在大數據的背景下,緊密結合算法(Algorithms)、分布式系統(Machines)和大量用戶(People)的研究 主要成員: Michael Franklin 教授 (數據庫方向)、 Michael Jordan 教授(機器學習)、Ion Stoica 教授 (操作系統方向) 2、大數據典型應用
3、大數據的特點 volume/variety/velocity/veracity/value 大數據分析的生命周期:獲取記錄-抽取清洗-集成聚合-分析建模-解釋展示 大數據挑戰:異構、規模、時效、隱私、協同 大數據的質量:精確性、一致性、完整性、時效性 4、大數據技術體系 大數據技術體系現狀
傳統數據質量僅通過ETL方式執行(抽取、轉換、加載,包括解析、模式分析等) 補充:1、Hash(哈希),一般翻譯做“散列”,就是把任意長度的輸入(又叫做預映射, pre-image),通過散列算法,變換成固定長度的輸出,該輸出就是散列值。這種轉換是一種壓縮映射。 2、不同的輸入可能會散列成相同的輸出,所以不可能從散列值來唯一的確定輸入值。 3、簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。 5、大數據生態體系 1): GFS - Google文件系統 2): BigTable – Google大表 3): Google MapReduce Google提出的一個用于大規模數據集的、適于低成本硬件機群的、可靠容錯的、 并行運算軟件框架 SEDA(Stage Event-Driven Architecture)模型:分階段的事件驅動架構 4): Chubby – Google 胖子
5)Berkeley不需要頻繁讀寫,比Hadoop高效。
6、大數據技術挑戰
amplab最火的實驗室 在大數據的背景下,緊密結合算法(Algorithms)、分布式系統(Machines)和大量用戶(People)的研究 主要成員: Michael Franklin 教授 (數據庫方向)、 Michael Jordan 教授(機器學習)、Ion Stoica 教授 (操作系統方向) 2、大數據典型應用
3、大數據的特點 volume/variety/velocity/veracity/value 大數據分析的生命周期:獲取記錄-抽取清洗-集成聚合-分析建模-解釋展示 大數據挑戰:異構、規模、時效、隱私、協同 大數據的質量:精確性、一致性、完整性、時效性 4、大數據技術體系 大數據技術體系現狀
傳統數據質量僅通過ETL方式執行(抽取、轉換、加載,包括解析、模式分析等) 補充:1、Hash(哈希),一般翻譯做“散列”,就是把任意長度的輸入(又叫做預映射, pre-image),通過散列算法,變換成固定長度的輸出,該輸出就是散列值。這種轉換是一種壓縮映射。 2、不同的輸入可能會散列成相同的輸出,所以不可能從散列值來唯一的確定輸入值。 3、簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。 5、大數據生態體系 1): GFS - Google文件系統 2): BigTable – Google大表 3): Google MapReduce Google提出的一個用于大規模數據集的、適于低成本硬件機群的、可靠容錯的、 并行運算軟件框架 SEDA(Stage Event-Driven Architecture)模型:分階段的事件驅動架構 4): Chubby – Google 胖子
5)Berkeley不需要頻繁讀寫,比Hadoop高效。
6、大數據技術挑戰
總結
- 上一篇: Windows 7镜像安装Windows
- 下一篇: 【教程】腾讯轻量云搭建在线客服聊天系统