如何入门大数据学习
? ? ? ? ?首先,大數(shù)據(jù)的定義是什么?很多人都在說要進(jìn)入大數(shù)據(jù)行業(yè),要學(xué)習(xí)大數(shù)據(jù)技術(shù),但往往對大數(shù)據(jù)都是一知半解,我們先看百度百科對大數(shù)據(jù)的定義
? ? ? ? ?來抓重點(diǎn),常規(guī)的軟件工具處理不了的,就必須要用新的技術(shù),那能解決以上問題的技術(shù)就是大數(shù)據(jù)技術(shù)。
? ? ? ? ?大數(shù)據(jù)的技術(shù)是一個技術(shù)群落,想全部學(xué)習(xí)短期內(nèi)是不現(xiàn)實(shí)的,那么我們怎么樣科學(xué)的有邏輯有規(guī)劃的來學(xué)習(xí),我們得了解大數(shù)據(jù)行業(yè)里,有哪些崗位,我們直接從工作崗位的技能需求來倒推我們如何學(xué)習(xí)大數(shù)據(jù),如何有側(cè)重點(diǎn)的來學(xué)習(xí)。
首先,先看看有哪些崗位,當(dāng)然大公司會分的比較詳細(xì),中小企企業(yè)相對要求會全面一些
先看看如下這幅圖,圖沒有很詳細(xì),我再做解答
?
我們從整個數(shù)據(jù)項(xiàng)目的業(yè)務(wù)流程出發(fā),(以上所有崗位都對編程有要求,所以編程基礎(chǔ)是必不可少的)
- 大數(shù)據(jù)工程師,眾所周知,在沒有大數(shù)據(jù)以前,行業(yè)應(yīng)用已經(jīng)非常成熟了,最早大家只關(guān)注功能的實(shí)現(xiàn),接著重視前臺的界面,前端工程師因此火了一段時間,因?yàn)橐郧皵?shù)據(jù)量不大,所以在功能上并不重視,由于移動互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量非常龐大了,這個時候單機(jī)服務(wù)器不能解決問題,那么分布式集群就出現(xiàn)了,大數(shù)據(jù)工程師的職責(zé)就是搭建大數(shù)據(jù)平臺,所以從上圖可以得知,大數(shù)據(jù)工程師,需要有java基礎(chǔ)(行業(yè)應(yīng)用大部分是java語言編寫的),所以,今后想從事該崗位的,那么學(xué)習(xí)的路線圖如下
java基礎(chǔ)----linux----hadoop-----hive、hbase----scala---spark
- 算法工程師,該崗位零基礎(chǔ)的小伙伴就請止步吧,更適用于數(shù)學(xué)專業(yè)的研究生及以上學(xué)歷,對數(shù)據(jù)基礎(chǔ)要求比較高。
- 數(shù)據(jù)挖掘工程師,建議從python入手,畢竟python里面有大量的數(shù)據(jù)科學(xué)的包,也有pyspark,直接從spark里面調(diào)數(shù)據(jù),不用學(xué)習(xí)Scala語言(spark的編程語言是Scala),學(xué)習(xí)的路線如下:
python基礎(chǔ)—python web(強(qiáng)化編程基礎(chǔ))--數(shù)學(xué)基礎(chǔ)補(bǔ)充(線性代數(shù)、概率統(tǒng)計(jì)、離散數(shù)學(xué))--python? numpy? pandas包---機(jī)器學(xué)習(xí)算法---深度學(xué)習(xí)
- 數(shù)據(jù)分析師,該崗位對數(shù)學(xué)基礎(chǔ)要求不高,但對綜合素質(zhì)要求非常高,能充分的理解行業(yè)行情、公司運(yùn)營、產(chǎn)品運(yùn)作、對市場敏銳度較高。具備一定的編程基礎(chǔ),建議學(xué)習(xí)python,能熟練使用相關(guān)的工具,如excel,sas、spss等,能寫漂亮的文章做PPT就行,數(shù)學(xué)基礎(chǔ)不好的女生可以建議走該方向。
學(xué)習(xí)路線:python基礎(chǔ)—python? numpy? pandas包---excel—spss---sas
- 大數(shù)據(jù)可視化,該崗位需要前端的相關(guān)基礎(chǔ),大數(shù)據(jù)運(yùn)維工程師,也不多做介紹了。
根據(jù)以上的崗位介紹,對自己做一個整體的規(guī)劃
?
?
個人是建議從大數(shù)據(jù)工程師入手,從java基礎(chǔ)開始學(xué),畢竟編程基礎(chǔ)是每個崗位都需要的,而且java的適用面是最廣的,雖然現(xiàn)在python的勢頭很足,但相對java來說,python比較簡單,只要java能熟練使用了,要學(xué)會python,兩周的時間就沒問題,從長遠(yuǎn)的職業(yè)規(guī)劃來說,學(xué)習(xí)沒有速成的方法,腳踏實(shí)地才是最重要的。
我這有大數(shù)據(jù)工程師詳細(xì)的學(xué)習(xí)的計(jì)劃,分享給大家,希望對你們有幫助。
第一階段:靜態(tài)網(wǎng)頁基礎(chǔ)(HTML+CSS)
第二階段:JavaSE+JavaWeb
抽象類、接口、常見類、內(nèi)部類、常見修飾符等) 、異常、集合、文件、IO、
MYSQL(基本SQL語句操作、多表查詢、子查詢、存儲過程、事務(wù)、分布式事務(wù))
JDBC、線程、反射、Socket編程、枚舉、泛型、設(shè)計(jì)模式
第三階段:前端框架
第四階段:企業(yè)級開發(fā)框架
第五階段: 初識大數(shù)據(jù)
第六階段:大數(shù)據(jù)數(shù)據(jù)庫
第七階段:實(shí)時數(shù)據(jù)采集
第八階段:SPARK數(shù)據(jù)分析
主要技術(shù)包括:SCALA入門(數(shù)據(jù)類型、運(yùn)算符、控制語句、基礎(chǔ)函數(shù))、SCALA進(jìn)階(數(shù)據(jù)結(jié)構(gòu)、類、對象、特質(zhì)、模式匹配、正則表達(dá)式)、SCALA高級使用(高階函數(shù)、科里函數(shù)、偏函數(shù)、尾迭代、自帶高階函數(shù)等)、SPARK入門(環(huán)境搭建、基礎(chǔ)結(jié)構(gòu)、運(yùn)行模式)、Spark數(shù)據(jù)集與編程模型、SPARK SQL、SPARK 進(jìn)階(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA與SOCKET、編程模型)、SPARK高級編程(Spark-GraphX、Spark-Mllib機(jī)器學(xué)習(xí))、SPARK高級應(yīng)用(系統(tǒng)架構(gòu)、主要配置和性能優(yōu)化、故障與階段恢復(fù))、SPARK? ML KMEANS算法,SCALA 隱式轉(zhuǎn)化高級特性
總結(jié)
- 上一篇: 机器人DH参数
- 下一篇: Servlet运行原理