當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何入门大数据学习

發(fā)布時間：2023/12/14 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了如何入门大数据学习小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

? ? ? ? ?首先，大數(shù)據(jù)的定義是什么？很多人都在說要進(jìn)入大數(shù)據(jù)行業(yè)，要學(xué)習(xí)大數(shù)據(jù)技術(shù)，但往往對大數(shù)據(jù)都是一知半解，我們先看百度百科對大數(shù)據(jù)的定義

? ? ? ? ?來抓重點(diǎn)，常規(guī)的軟件工具處理不了的，就必須要用新的技術(shù)，那能解決以上問題的技術(shù)就是大數(shù)據(jù)技術(shù)。

? ? ? ? ?大數(shù)據(jù)的技術(shù)是一個技術(shù)群落，想全部學(xué)習(xí)短期內(nèi)是不現(xiàn)實(shí)的，那么我們怎么樣科學(xué)的有邏輯有規(guī)劃的來學(xué)習(xí)，我們得了解大數(shù)據(jù)行業(yè)里，有哪些崗位，我們直接從工作崗位的技能需求來倒推我們如何學(xué)習(xí)大數(shù)據(jù)，如何有側(cè)重點(diǎn)的來學(xué)習(xí)。

首先，先看看有哪些崗位，當(dāng)然大公司會分的比較詳細(xì)，中小企企業(yè)相對要求會全面一些

先看看如下這幅圖，圖沒有很詳細(xì)，我再做解答

我們從整個數(shù)據(jù)項(xiàng)目的業(yè)務(wù)流程出發(fā)，（以上所有崗位都對編程有要求，所以編程基礎(chǔ)是必不可少的）

大數(shù)據(jù)工程師，眾所周知，在沒有大數(shù)據(jù)以前，行業(yè)應(yīng)用已經(jīng)非常成熟了，最早大家只關(guān)注功能的實(shí)現(xiàn)，接著重視前臺的界面，前端工程師因此火了一段時間，因?yàn)橐郧皵?shù)據(jù)量不大，所以在功能上并不重視，由于移動互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)量非常龐大了，這個時候單機(jī)服務(wù)器不能解決問題，那么分布式集群就出現(xiàn)了，大數(shù)據(jù)工程師的職責(zé)就是搭建大數(shù)據(jù)平臺，所以從上圖可以得知，大數(shù)據(jù)工程師，需要有java基礎(chǔ)（行業(yè)應(yīng)用大部分是java語言編寫的），所以，今后想從事該崗位的，那么學(xué)習(xí)的路線圖如下

java基礎(chǔ)----linux----hadoop-----hive、hbase----scala---spark

算法工程師，該崗位零基礎(chǔ)的小伙伴就請止步吧，更適用于數(shù)學(xué)專業(yè)的研究生及以上學(xué)歷，對數(shù)據(jù)基礎(chǔ)要求比較高。
數(shù)據(jù)挖掘工程師，建議從python入手，畢竟python里面有大量的數(shù)據(jù)科學(xué)的包，也有pyspark，直接從spark里面調(diào)數(shù)據(jù)，不用學(xué)習(xí)Scala語言（spark的編程語言是Scala），學(xué)習(xí)的路線如下：

python基礎(chǔ)—python web（強(qiáng)化編程基礎(chǔ)）--數(shù)學(xué)基礎(chǔ)補(bǔ)充（線性代數(shù)、概率統(tǒng)計(jì)、離散數(shù)學(xué)）--python? numpy? pandas包---機(jī)器學(xué)習(xí)算法---深度學(xué)習(xí)

數(shù)據(jù)分析師，該崗位對數(shù)學(xué)基礎(chǔ)要求不高，但對綜合素質(zhì)要求非常高，能充分的理解行業(yè)行情、公司運(yùn)營、產(chǎn)品運(yùn)作、對市場敏銳度較高。具備一定的編程基礎(chǔ)，建議學(xué)習(xí)python，能熟練使用相關(guān)的工具，如excel，sas、spss等，能寫漂亮的文章做PPT就行，數(shù)學(xué)基礎(chǔ)不好的女生可以建議走該方向。

學(xué)習(xí)路線：python基礎(chǔ)—python? numpy? pandas包---excel—spss---sas

大數(shù)據(jù)可視化，該崗位需要前端的相關(guān)基礎(chǔ)，大數(shù)據(jù)運(yùn)維工程師，也不多做介紹了。

根據(jù)以上的崗位介紹，對自己做一個整體的規(guī)劃

個人是建議從大數(shù)據(jù)工程師入手，從java基礎(chǔ)開始學(xué)，畢竟編程基礎(chǔ)是每個崗位都需要的，而且java的適用面是最廣的，雖然現(xiàn)在python的勢頭很足，但相對java來說，python比較簡單，只要java能熟練使用了，要學(xué)會python，兩周的時間就沒問題，從長遠(yuǎn)的職業(yè)規(guī)劃來說，學(xué)習(xí)沒有速成的方法，腳踏實(shí)地才是最重要的。

我這有大數(shù)據(jù)工程師詳細(xì)的學(xué)習(xí)的計(jì)劃，分享給大家，希望對你們有幫助。

第一階段：靜態(tài)網(wǎng)頁基礎(chǔ)（HTML+CSS）

難易程度：一顆星

主要技術(shù)包括：html常用標(biāo)簽、CSS常見布局、樣式、定位等、靜態(tài)頁面的設(shè)計(jì)制作方式等

第二階段：JavaSE+JavaWeb

難易程度：兩顆星

主要技術(shù)包括：java基礎(chǔ)語法、java面向?qū)ο?#xff08;類、對象、封裝、繼承、多態(tài)、

抽象類、接口、常見類、內(nèi)部類、常見修飾符等）、異常、集合、文件、IO、

MYSQL(基本SQL語句操作、多表查詢、子查詢、存儲過程、事務(wù)、分布式事務(wù))

JDBC、線程、反射、Socket編程、枚舉、泛型、設(shè)計(jì)模式

第三階段：前端框架

難易程序：兩星

主要技術(shù)包括：JavaScript、Jquery、注解反射一起使用，XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

第四階段：企業(yè)級開發(fā)框架

難易程序：三顆星

主要技術(shù)包括：Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro 、redis、流程引擎activity，爬蟲技術(shù)nutch,lucene，webService CXF、Tomcat集群和熱備、MySQL讀寫分離

第五階段：初識大數(shù)據(jù)

難易程度：三顆星

主要技術(shù)包括：大數(shù)據(jù)前篇（什么是大數(shù)據(jù)，應(yīng)用場景，如何學(xué)習(xí)大數(shù)據(jù)庫，虛擬機(jī)概念和安裝等）、Linux常見命令(文件管理、系統(tǒng)管理、磁盤管理)、Linux Shell編程（SHELL變量、循環(huán)控制、應(yīng)用）、Hadoop入門（Hadoop組成、單機(jī)版環(huán)境、目錄結(jié)構(gòu)、HDFS界面、MR界面、簡單的SHELL、java訪問hadoop）、HDFS(簡介、SHELL、IDEA開發(fā)工具使用、全分布式集群搭建)、MapReduce應(yīng)用(中間計(jì)算過程、Java操作MapReduce、程序運(yùn)行、日志監(jiān)控)、Hadoop高級應(yīng)用(YARN框架介紹、配置項(xiàng)與優(yōu)化、CDH簡介、環(huán)境搭建)、擴(kuò)展(MAP 端優(yōu)化，COMBINER 使用方法見,TOP K,SQOOP導(dǎo)出,其它虛擬機(jī)VM的快照,權(quán)限管理命令,AWK 與 SED命令)

第六階段：大數(shù)據(jù)數(shù)據(jù)庫

難易程度：四顆星

主要技術(shù)包括：Hive入門（Hive簡介、Hive使用場景、環(huán)境搭建、架構(gòu)說明、工作機(jī)制）、Hive Shell編程（建表、查詢語句、分區(qū)與分桶、索引管理和視圖）、Hive高級應(yīng)用(DISTINCT實(shí)現(xiàn)、groupby、join、sql轉(zhuǎn)化原理、java編程、配置和優(yōu)化)、hbase入門、Hbase SHELL編程(DDL、DML、Java操作建表、查詢、壓縮、過濾器)、細(xì)說Hbase模塊（REGION、HREGION SERVER、HMASTER、ZOOKEEPER簡介、ZOOKEEPER配置、Hbase與Zookeeper集成）、HBASE高級特性(讀寫流程、數(shù)據(jù)模型、模式設(shè)計(jì)讀寫熱點(diǎn)、優(yōu)化與配置)

第七階段：實(shí)時數(shù)據(jù)采集

難易程序：四顆星

主要技術(shù)包括：Flume日志采集，KAFKA入門（消息隊(duì)列、應(yīng)用場景、集群搭建）、KAFKA詳解（分區(qū)、主題、接受者、發(fā)送者、與ZOOKEEPER集成、Shell開發(fā)、Shell調(diào)試）、KAFKA高級使用（java開發(fā)、主要配置、優(yōu)化項(xiàng)目）、數(shù)據(jù)可視化（圖形與圖表介紹、CHARTS工具分類、柱狀圖與餅圖、3D圖與地圖）、STORM入門（設(shè)計(jì)思想、應(yīng)用場景、處理過程、集群安裝）、STROM開發(fā)（STROM MVN開發(fā)、編寫STORM本地程序）、STORM進(jìn)階（java開發(fā)、主要配置、優(yōu)化項(xiàng)目）、KAFKA異步發(fā)送與批量發(fā)送時效，KAFKA全局消息有序，STORM多并發(fā)優(yōu)化

第八階段：SPARK數(shù)據(jù)分析

難易程序：五顆星

主要技術(shù)包括：SCALA入門(數(shù)據(jù)類型、運(yùn)算符、控制語句、基礎(chǔ)函數(shù))、SCALA進(jìn)階(數(shù)據(jù)結(jié)構(gòu)、類、對象、特質(zhì)、模式匹配、正則表達(dá)式)、SCALA高級使用（高階函數(shù)、科里函數(shù)、偏函數(shù)、尾迭代、自帶高階函數(shù)等）、SPARK入門(環(huán)境搭建、基礎(chǔ)結(jié)構(gòu)、運(yùn)行模式)、Spark數(shù)據(jù)集與編程模型、SPARK SQL、SPARK 進(jìn)階（DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA與SOCKET、編程模型）、SPARK高級編程（Spark-GraphX、Spark-Mllib機(jī)器學(xué)習(xí)）、SPARK高級應(yīng)用（系統(tǒng)架構(gòu)、主要配置和性能優(yōu)化、故障與階段恢復(fù)）、SPARK? ML KMEANS算法，SCALA 隱式轉(zhuǎn)化高級特性

總結(jié)

以上是生活随笔為你收集整理的如何入门大数据学习的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。