了解大数据
了解大數(shù)據(jù)
一.大數(shù)據(jù)
1.大數(shù)據(jù)的定義
麥肯錫全球研究所:一種規(guī)模大到在獲取,存儲,管理,分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。
2.大數(shù)據(jù)的特點(diǎn)
大量,高速,多樣,價(jià)值
3.數(shù)據(jù)的結(jié)構(gòu)
結(jié)構(gòu)化的數(shù)據(jù):
簡單來說就是數(shù)據(jù)庫,是由二維表結(jié)構(gòu)來邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù)
非結(jié)構(gòu)化的數(shù)據(jù):
數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型
4.我們身邊有哪些是大數(shù)據(jù)
電信數(shù)據(jù):通話數(shù)據(jù),短信數(shù)據(jù),手機(jī)瀏覽數(shù)據(jù);銀行數(shù)據(jù);微信聊天數(shù)據(jù)......
5.大數(shù)據(jù)帶來了什么
數(shù)據(jù)挖掘:
用戶畫像;知識圖譜
人工智能:
Google的 ‘ 阿爾法狗 ’;阿里巴巴的”ET“,百度的”無人駕駛汽車“
區(qū)塊鏈:
數(shù)字貨幣,物聯(lián)網(wǎng)
總結(jié):
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征
二.人工智能
1.人工智能是什么
人工智能:英文縮寫為AI。它是研究,開發(fā)用于模擬,延伸和擴(kuò)展的智能的理論,方法,技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)
總結(jié):大數(shù)據(jù)+深度學(xué)習(xí)=人工智能
2.人工智能三大發(fā)展要素
*計(jì)算機(jī)硬件
*算法
*數(shù)據(jù)
三.機(jī)器學(xué)習(xí)和深度學(xué)習(xí)
1.機(jī)器學(xué)習(xí)的定義
專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能
2.機(jī)器學(xué)習(xí)基本過程
機(jī)器學(xué)習(xí)是數(shù)據(jù)通過算法構(gòu)建出模型并對模型進(jìn)行評估,評估的性能如果達(dá)到要求就拿出這個模型來測試其他的數(shù)據(jù),最終獲得滿意的經(jīng)驗(yàn)來處理其他的數(shù)據(jù)。
總結(jié):數(shù)據(jù)導(dǎo)入—>數(shù)據(jù)清洗—>特征工程—>訓(xùn)練模型—>評估模型—>預(yù)測新數(shù)據(jù)
3.機(jī)器學(xué)習(xí)的分類
監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)。
4.算法的分類
回歸算法(監(jiān)督學(xué)習(xí)),聚類算法,分類算法,神經(jīng)網(wǎng)絡(luò),將維算法,SVM支持向量機(jī),推薦算法(t特殊),其他算法
5.深度學(xué)習(xí)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法—含有多隱層的神經(jīng)網(wǎng)絡(luò)
6.機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的應(yīng)用
廣泛用于數(shù)據(jù)挖掘,計(jì)算機(jī)視覺,自然語言處理,生物特征識別機(jī)器人領(lǐng)域等。
四.數(shù)據(jù)挖掘
1.什么是數(shù)據(jù)挖掘
從大量的數(shù)據(jù)中挖掘出隱含的,未知的,用戶可能感興趣的和對決策有潛在價(jià)值的知識和規(guī)則
簡單的說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用信息的過程
2.數(shù)據(jù)挖掘怎么挖數(shù)據(jù)
通過大數(shù)據(jù)(數(shù)據(jù),分布式技術(shù))和挖掘算法(機(jī)器學(xué)習(xí)算法)
3.挖掘能做什么
用戶可能感興趣的和對決策有潛在價(jià)值的知識和規(guī)則
五.大數(shù)據(jù)技術(shù)體系
1.大數(shù)據(jù)體系
開發(fā)語言:Java ,Python,Scala;
分布式存儲:Hdfs,Hbase,Redis,Mongedb;
分布式計(jì)算:Mapreducer,Sark Core,Storm;
數(shù)據(jù)倉庫技術(shù):Hive ,Sqoop,Flume,Spark SQL
機(jī)器學(xué)習(xí):Mahout,Scikit—lean,MLlib
2.分布式計(jì)算
分布式計(jì)算將該應(yīng)用分解為許多小的部分,分配給多臺計(jì)算機(jī)進(jìn)行處理。
六.學(xué)習(xí)大數(shù)據(jù)之前的準(zhǔn)備
1.掌握一門大數(shù)據(jù)開發(fā)語言
-Java
必須掌握J(rèn)2SE,jdbc,JS,sql語句,sevlet,jsp,spring框架等。
見百戰(zhàn)程序員Java1000集視頻
-Python
必須掌握Python語法,Python面向?qū)ο螅琍ython數(shù)據(jù)庫等
見百戰(zhàn)程序員1000集視頻
-熟悉linux
-數(shù)列l(wèi)inux常用命令
七.大數(shù)據(jù)職位介紹
按需求排序:數(shù)據(jù)挖掘工程師;
Spark開發(fā)工程師,數(shù)據(jù)倉庫工程師,Hadoop開發(fā)工程師
工資
(大數(shù)據(jù)開發(fā)工程師)
(數(shù)據(jù)倉庫)
(數(shù)據(jù)倉庫)
(大數(shù)據(jù)開發(fā)工程師)
總結(jié):數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),算法工程師工資幾乎都超過兩萬
八.大數(shù)據(jù)簡歷怎么寫
個人資料
工資經(jīng)歷
職業(yè)技能
期望薪資 填寫面議
項(xiàng)目經(jīng)驗(yàn)
自我評價(jià)
九.大數(shù)據(jù)的學(xué)習(xí)方法
·多寫代碼 (大數(shù)據(jù)偏向?qū)崙?zhàn))
—紙上得來終覺淺,絕知此事要躬行
—看再多的書,也比不上設(shè)計(jì)調(diào)試一個簡單的程序
—寫代碼和其它事情比例 7:3
·看優(yōu)秀的書和視頻
—《程序員的數(shù)學(xué)》《大數(shù)據(jù)之美》等
—連續(xù)看視頻的時間不能超過30分鐘
·設(shè)計(jì)規(guī)劃
—多畫圖,數(shù)據(jù)流程圖
—多畫步驟圖。完成一個需求往往需要多個jop依次執(zhí)行,每個jop做什么事情,每個jop的每個任務(wù)做什么事情
·多思考,歸納總結(jié)
—每個案例學(xué)完之后,每段代碼敲完之后,都要進(jìn)行總結(jié)
—大數(shù)據(jù)編程比較靈活,一個需求往往有多種解決辦法
·多交流
—學(xué)習(xí)的時候?yàn)樽约赫乙粋€“伴”
—不恥下問
·多看日志學(xué)會獨(dú)立解決問題
—解決問題只能靠日志信息
—先看日志,看不懂再問老師及其他人
·一份付出,一份回報(bào)
大數(shù)據(jù)重點(diǎn)課程介紹
Linux基礎(chǔ)
高并發(fā)集群(前兩個為后面3個做準(zhǔn)備)
Hadoop離線計(jì)算體系
— HDFS
— Mapreduce
— Hive
— Hbase
— Sqoop,Flume,zookeeper,CDH,impala,oozie等
Sprak內(nèi)存計(jì)算體系
—Spark core,Spark Sql,sprak streaming,Scala語言
機(jī)器學(xué)習(xí)
—R語言,Python機(jī)器學(xué)習(xí),Spark MLlib
總結(jié)
- 上一篇: 豨签草的功效与作用 豨签草的药用价值_中
- 下一篇: 页面访问次数的统计