40个大数据学习资源,个个是干货,最后7个太给力
“數據是驅動商業向前發展的核心,更是人類社會的未來。”
盡管將馬云的這句話斷章取義地拿出來說會顯得唐突,但這話所表達的意思卻顯而易見。今天給大家分享的這40個教程,送給對未來抱有遠見的樂觀主義拼搏者,涵蓋了大數據入門的大多基礎知識,從Java基礎到Scala,Hadoop,Hbase,Mhout,Sqoop以及Spark等等。
入門知識
1. Linux 基礎入門(新版)
2. Vim編輯器
3. Git 實戰教程
4. MySQL 基礎課程
5. MongoDB 基礎教程
6. Redis基礎教程
本教程的正確食用姿勢:教程大都是公開免費資源(僅有一小撮需要會員權限)。區別于目前所有主流教程,該教程的核心就是動手!跟著文檔說明,在在線的Linux系統中一步一步地敲出基礎知識,各種有趣項目;走出只看書、看視頻卻不動手的禁區,你會比別人學的更快的,放心。
Java基礎
1. Java編程語言(新版)
介紹 Java 語言基本語法、Java 平臺應用、 Java 的核心概念:JVM、JDK、JRE以及 java 面向對象思想。同時我們會學到如何在系統中搭建 Java 開發環境,以及如何利用第三方工具進行 Java 程序的開發。
2. Java進階之設計模式
介紹常用的設計模式以及 Java 語言的實現實例來學習 java 設計模式。從中我們可以學習到很多類型的設計模式,其中包括工廠模式、抽象工廠模式、單例模式、適配器模式、觀察者模式、裝飾者模式等等。
3. JDK 核心 API
學習包括 java.lang 包,java.util 包,java.io 包,swing以及多線程的相關知識。
4. JDBC 入門教程
通過學習 JDBC 定義和架構,回顧 SQL 語法,搭建 JDBC 的環境,通過實例來深入學習 JDBC。從中我們將學習到如何用 java 連接到數據庫,并練習編寫了一個信息管理的程序,在此基礎上可以提高自己的數據庫管理能力。
5. Java 8 新特性指南
介紹了 Lambda 表達式、函數式接口、Stream 流和 Date/Time API 等相關知識點。難度一般,適用于Java初學者或者是具有一定編程經驗的開發者。
Scala基礎
1. Scala 開發教程
Scala 是一門多范式的編程語言,類似于 Java 。設計初衷是實現可伸縮的語言、并集成面向對象編程和函數式編程的各種特性。
2. Scala 專題教程 - Case Class和模式匹配
本教程側重介紹Scala的case class和pattern matching(模式匹配),這兩個程序結構對于處理樹結構的數據非常有幫助。你將可以學習到模式匹配中的常量模式、通配模式和變量模式等。
3. Scala 專題教程 - 隱式變換和隱式參數
主要介紹 Scala 中可以讓函數庫調用變得更加方便的隱式變換和隱式參數,以及如何通過它們來避免一些繁瑣和顯而易見的細節問題。
4. Scala 專題教程 - 抽象成員
主要介紹 Scala 中的抽象成員用法。在本教程中,你將可以學到如何使用 Type 成員,以及抽象 vals 變量的初始化方法等要點。
5. Scala 專題教程 - Extractor
本教程側重講解 Scala 中的 Extractor ,它可以將數據模型和視圖邏輯分離,在 Scala 體系中充當類似于適配器的角色,是一種極具函數式的做法。你將可以在課程中學到如何定義和設定 Extractor 。
6. Scala 開發二十四點游戲
24 點是一種數學游戲,正如象棋、圍棋一樣是一種人們喜聞樂見的娛樂活動。 它始于何年何月已無從考究,但它以自己獨具的數學魅力和豐富的內涵正逐漸被越來越多的人們所接受。
Hadoop技術模塊
1. Hadoop部署及管理
Hadoop是一款支持數據密集型分布式應用并以Apache 2.0許可協議發布的開源軟件框架,本實驗學習并實踐Hadoop系統的不同模式的部署,以及基本的系統使用與管理。
2. Hadoop入門進階課程
涵蓋了大數據領域常見的組件,如Hadoop,Mapreduce,HBase,Mahout,Pig,Hive,Sqoop等。首先從理論上進行介紹,然后讓您在實驗環境中一步步搭建,及相應的案例學習。
3. HBASE 教程
HBase是一個開源的非關系型分布式數據庫(NoSQL),是Hadoop項目的一部分,運行于HDFS文件系統之上,為 Hadoop 提供類似于BigTable 規模的服務。
4. Hadoop 分布式文件系統——導入和導出數據
一個經典的數據架構中,Hadoop 是處理復雜數據流的核心。數據往往是從許多分散的系統中收集而來,并導入 Hadoop 分布式文件系統(HDFS)中,通過 MapReduce 或者其他基于MapReduce 封裝的語言進行處理,將這些已經過濾、轉換和聚合過的結果導出到一個或多個外部系統中。
5. 使用 Flume 收集數據
Flume 可以從多個數據源獲取數據,把這些數據傳給遠程主機(可能是一對多或流水線模型 中的多個目標),再把它們傳給多個目的端。盡管 Flume 提供了開發自定義數據源和數據目的端的編程 API,但它原本就支持許多常見的場景。
6. Kafka快速上手教程
介紹 Kafka 及實現原理,然后講解 Kafka 集成 Flume ,KafkaOffsetMonitor 安裝及使用,案例演示,學習完本教程,你將對kafka有深入的了解,很快上手。
7. 基于 Hadoop 對武俠小說進行詞頻分析
利用實驗樓提供的 Hadoop 環境,對一本武俠小說的文集進行簡單的 WordCount 詞頻統計,從而得到該書中出現頻次最高的人名。需要一定的 Hadoop 和 MapReduce 基礎。
8. Hadoop 圖處理–《hadoop應用框架》
對于圖處理,hadoop的mapreduce提供一層合并,這表明我們不得不像剝洋蔥一樣來處理圖數據,Giraph 是 Google Pregel 的一種開源實現。本教程將基于hadoop平臺實現Giraph 分布式系統中的圖處理。
Spark技術模塊
1. Spark2.x 快速入門教程
Spark進入2.0時代,引入了很多優秀特性,性能上有較大提升,API更易用。在“編程統一”方面非常驚艷,實現了離線計算和流計算API的統一,實現了Spark sql和Hive Sql操作API的統一。真正做到了“更簡單、更快速、更智能”!
2. Spark 大數據動手實驗
9個實驗帶你親身體驗Spark大數據分析的魅力,最快的上手教程,最新的技術領域,最多的動手實踐。
3.Spark 基礎之 GraphX 圖計算框架學習
GraphX通過RDD的擴展,在其中引入了一個新的圖抽象,即頂點和邊帶有特性的有向多重圖,提供了一些基本運算符和優化了的Pregel API,來支持圖計算。
4. 流式實時日志分析系統——《Spark 最佳實踐》
我們將基于 Spark Streaming 流式計算框架,簡單地實現一個類似于百度分析的系統。本教程源自圖靈教育的《Spark 最佳實踐》第6章第3節,感謝圖靈教育授權實驗樓發布。
5. Spark 基礎之 DataFrame 基本概念學習
針對飛行準點率數據集,通過一些簡單的分析任務來學習 DataFrame 的由來、構建方式以及一些常用操作。在本教程中,你可以了解到 Spark 生態體系中,核心的 RDD 與 DataFrame 之間的區別和聯系。
6. Spark 基礎之 DataFrame 高階應用技巧
通過更加深入的講解,使用真實的 SFPD 數據集,結合實際問題的分析過程,帶你學習 DataFrame 的創建方式、常用操作、UDF 自定義函數 和重分區相關知識。
7. Spark 基礎之 Streaming 快速上手
Spark Streaming 是 Spark 引擎的一種擴展,適用于實時處理流式數據。本教程將帶你學習 Spark Streaming 的工作機制,了解 Streaming 應用的基本結構,以及如何在 Streaming 應用中附加 SQL 查詢。
8. Spark 基礎之 SQL 快速上手
你將可以學習到 Spark SQL 的基礎概念,了解如何利用 SQL Context 及相關的 API 進行統計分析。最后還將通過一個分析股票價格與石油價格關系的實例,進一步學習如何利用 Spark SQL 分析數據。
9. Spark 基礎之使用機器學習庫 MLlib
你將可以學習到 Spark 的機器學習庫—— MLlib 的相關知識,了解 MLlib 與 ML 之間的區別和聯系,掌握 MLlib 中的幾個基本數據類型。同時,還將通過一個電影推薦的實例,講解如何利用機器學習算法解決實際問題。
10. Spark 基礎之 SparkR 快速上手
學習 Spark 平臺中對于 R 語言的支持前端——SparkR。教程將會講解到如何在 SparkR 中創建和操作 DataFrame、如何運行 SQL 查詢,以及如何利用機器學習相關的 API。
11. 使用 Spark 和 D3.js 分析航班大數據
將通過一個航班數據分析實例來學習 Spark 綜合技巧和數據可視化技術。在航班數據分析實驗中,可以學習到如何使用 OpenRefine 進行簡單的數據清洗,以及如何通過 Spark 提供的 DataFrame、 SQL 和機器學習框架等工具,對航班起降的記錄數據進行分析,嘗試找出造成航班延誤的原因,以及對航班延誤情況進行預測。
大數據進階項目
1. Ebay 在線拍賣數據分析
介紹如何利用 eBay 上的拍賣數據進行數據分析,實現通過數據判斷拍賣最終是否可以成功交易和預測最終成交的價格。
2. 流式實時日志分析系統——《Spark 最佳實踐》
我們將基于 Spark Streaming 流式計算框架,簡單地實現一個類似于百度分析的系統。本課教程源自圖靈教育的《Spark 最佳實踐》第6章第3節,感謝圖靈教育授權實驗樓發布。
3. Spark的模式挖掘—FPGrowth算法
模式挖掘也叫關聯規則,其實就是從大量的數據中挖掘出比較有用的數據,挖掘頻繁項。比如說超市有大量的購物數據,從而可以根據用戶的購物數據找到哪些商品之間關聯性比較大。進行關聯推銷產品。也可以進行用戶推薦。
4. Twitter數據情感分析
使用Spark MLlib對Twitter上的流數據進行情感分析,并且利用Python的工具包basemap可視化美國不同的州對于曾經的總統候選人希拉里及川普的情感分析結果,通過地理信息可視化我們可直觀的感受到這兩位候選人的受歡迎程度。
5. Spark流式計算電商商品關注度
使用Scoket來模擬用戶瀏覽商品產生實時數據,數據包括用戶當前瀏覽的商品以及瀏覽商品的次數和停留時間和是否收藏該商品。使用Spark Streaming構建實時數據處理系統,來計算當前電商平臺最受人們關注的商品是哪些。
6. 使用 Spark 進行流量日志分析
日志在計算機系統中是一個非常廣泛的概念,任何程序都有可能輸出日志:操作系統內核、各種應用服務器等等。日志包含很多有用的信息,例如訪問者的 IP、訪問的時間、訪問的目標網頁、來源的地址以及訪問者所使用的客戶端的 UserAgent 信息等,分析日志能幫助企業營銷做出決策
7. 大數據帶你挖掘打車的秘籍
在哪些地方出租車更容易打到?在什么時候更容易打到出租車?本教程將基于某市的出租車行駛軌跡數據,帶你學習如何應用Spark SQL和機器學習相關技巧,并且通過數據可視化手段展現分析結果。
完。更多相關教程,歡迎大家到實驗樓(www. shiyanlou.com)來學習哦!
今日推薦
第一彈:超全Python學習資源整理(入門系列)
第二彈:超全Python學習資源整理(進階系列)
Java進階之設計模式
Scala 開發教程
Hadoop部署及管理
RabbitMQ 消息隊列
Redis基礎教程
Shell腳本實現打字游戲
Python3 實現色情圖片識別
Python實現3D建模工具
總結
以上是生活随笔為你收集整理的40个大数据学习资源,个个是干货,最后7个太给力的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 零基础如何学好数据分析?
- 下一篇: GitHub上个最有意思的项目合集(技术