日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

python大数据入门书籍_初学大数据,一定要知道这些

發布時間:2023/12/14 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python大数据入门书籍_初学大数据,一定要知道这些 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

該樓層疑似違規已被系統折疊 隱藏此樓查看此樓

經常有初學者問我,自己想往大數據方向發展,該學哪些技術,學習路線是什么樣的,覺得大數據很火,就業很好,薪資很高。。。。。。。如果自己很迷茫,為了這些原因想往大數據方向發展,也可以,那么我就想問一下,你的專業是什么,對于計算機/軟件,你的興趣是什么?是計算機專業,對操作系統、硬件、網絡、服務器感興趣?是軟件專業,對軟件開發、編程、寫代碼感興趣?還是數學、統計學專業,對數據和數字特別感興趣。

其實這就是想告訴你的大數據的三個發展方向,平臺搭建/優化/運維/監控、大數據開發/設計/架構、數據分析/挖掘。請不要問我哪個容易,哪個前景好,哪個錢多。

先扯一下大數據的4V特征:

l 數據量大,TB->PB

l 數據類型繁多,結構化、非結構化文本、日志、視頻、圖片、地理位置等;

l 商業價值高,但是這種價值需要在海量數據之上,通過數據分析與機器學習更快速的挖掘出來;

l 處理時效性高,海量數據的處理需求不再局限在離線計算當中。

現如今,正式為了應對大數據的這幾個特點,開源的大數據框架越來越多,越來越強,先列舉一些常見的:

文件存儲:Hadoop HDFS、Tachyon、KFS

離線計算:Hadoop MapReduce、Spark

流式、實時計算:Storm、Spark Streaming、S4、Heron

K-V、NOSQL數據庫:HBase、Redis、MongoDB

資源管理:YARN、Mesos

日志收集:Flume、Scribe、Logstash、Kibana

消息系統:Kafka、StormMQ、ZeroMQ、RabbitMQ

查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式協調服務:Zookeeper

集群管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager

數據挖掘、機器學習:Mahout、Spark MLLib

數據同步:Sqoop

任務調度:Oozie

……

眼花了吧,上面的有30多種吧,別說精通了,全部都會使用的,估計也沒幾個。

下面我主要說一下第二個方向(開發/設計/架構)

第一章:初識Hadoop

1.1 學會百度與Google

不論遇到什么問題,先試試搜索并自己解決。

Google首選,翻不過去的,就用百度吧。

1.2 參考資料首選官方文檔

特別是對于入門來說,官方文檔永遠是首選文檔。

相信搞這塊的大多是文化人,英文湊合就行,實在看不下去的,請參考第一步。

1.3 先讓Hadoop跑起來

Hadoop可以算是大數據存儲和計算的開山鼻祖,現在大多開源的大數據框架都依賴Hadoop或者與它能很好的兼容。

關于Hadoop,你至少需要搞清楚以下是什么:

l Hadoop 1.0、Hadoop 2.0

l MapReduce、HDFS

l NameNode、DataNode

l JobTracker、TaskTracker

l Yarn、ResourceManager、NodeManager

自己搭建Hadoop,請使用第一步和第二步,能讓它跑起來就行。

建議先使用安裝包命令行安裝,不要使用管理工具安裝。

另外:Hadoop1.0知道它就行了,現在都用Hadoop 2.0.

1.4 試試使用Hadoop

HDFS目錄操作命令;

上傳、下載文件命令;

提交運行MapReduce示例程序;

打開Hadoop WEB界面,查看Job運行狀態,查看Job運行日志。

知道Hadoop的系統日志在哪里。

1.5 你該了解它們的原理了

MapReduce:如何分而治之;

HDFS:數據到底在哪里,什么是副本;

Yarn到底是什么,它能干什么;

NameNode到底在干些什么;

ResourceManager到底在干些什么;

1.6 自己寫一個MapReduce程序

請仿照WordCount例子,自己寫一個(照抄也行)WordCount程序,

打包并提交到Hadoop運行。

你不會Java?Shell、Python都可以,有個東西叫Hadoop Streaming。

如果你認真完成了以上幾步,恭喜你,你的一只腳已經進來了。

總結

以上是生活随笔為你收集整理的python大数据入门书籍_初学大数据,一定要知道这些的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。