大数据的起步:初学者
作為一個大數據的初學者,要知道學習一些什么,以及如何的去學習,我也是一個初學者,這是我了解到的學習路線,也是我要走的學習路線。
原文路線:http://dataunion.org/31604.html
1、初始Hadoop
學會搭建Hadoop,跑一跑mapreduce,理解一下原理
2、更高效的WordCount
2.1 SQL
2.2 SQL版的wordcount
2.3 Hive SQL ON HADOOP
2.4 安裝配置hive
2.5 使用hive
2.6 hive是怎么工作的
2.7 學會hive的基本命令
具備如下知識點和技能
0和Hadoop2.0的區別;
MapReduce的原理(還是那個經典的題目,一個10G大小的文件,給定1G大小的內存,如何使用Java程序統計出現次數最多的10個單詞及次數);
HDFS讀寫數據的流程;向HDFS中PUT數據;從HDFS中下載數據;
自己會寫簡單的MapReduce程序,運行出現問題,知道在哪里查看日志;
會寫簡單的SELECT、WHERE、GROUP BY等SQL語句;
Hive SQL轉換成MapReduce的大致流程;
Hive中常見的語句:創建表、刪除表、往表中加載數據、分區、將表中數據下載到本地;
從上面的學習,你已經了解到,HDFS是Hadoop提供的分布式存儲框架,它可以用來存儲海量數據,MapReduce是Hadoop提供的分布式計算框架,它可以用來統計和分析HDFS上的海量數據,而Hive則是SQL On Hadoop,Hive提供了SQL接口,開發人員只需要編寫簡單易上手的SQL語句,Hive負責把SQL翻譯成MapReduce,提交運行。
此時,你的”大數據平臺”是這樣的:
那么問題來了,海量數據如何到HDFS上呢?
3、把別處的數據搞到Hadoop上
3.1 HDFS put命令
3.2 HDFS API
3.3 sqoop
3.4 Flume
你的”大數據平臺”應該是這樣的:
4、把hadoop上的數據搞到別處
4.1 HDFS GET命令
熟練掌握
4.2 HDSF API
4.3 sqoop
使用Sqoop完成將HDFS上的文件同步到MySQL;
使用Sqoop完成將Hive表中的數據同步到MySQL;
你的”大數據平臺”應該是這樣的:
5、SQL更快一點
5.1 關于Spark和SparkSQL
5.2 如何部署和運行SparkSQL
你的”大數據平臺”應該是這樣的:
6、一夫多妻制
6.1 關于Kafka
6.2 如何部署和使用Kafka
你的”大數據平臺”應該是這樣的:
7、越來越多的分析任務
7.1 Apache Oozie
7.2 其他開源的任務調度系統
你的”大數據平臺”應該是這樣的:
8、數據的實時性要求
8.1 Storm
8.2 Spark Streaming
你的”大數據平臺”應該是這樣的:
9、數據要對外
10、高大上的機器學習
在我們的業務中,遇到的能用機器學習解決的問題大概這么三類:
分類問題:包括二分類和多分類,二分類就是解決了預測的問題,就像預測一封郵件是否垃圾郵件;多分類解決的是文本的分類;
聚類問題:從用戶搜索過的關鍵詞,對用戶進行大概的歸類。
推薦問題:根據用戶的歷史瀏覽和點擊行為進行相關推薦。
大多數行業,使用機器學習解決的,也就是這幾類問題。
入門學習線路:
數學基礎;
機器學習實戰(Machine Learning in Action),懂Python最好;
SparkMlLib提供了一些封裝好的算法,以及特征處理、特征選擇的方法。
機器學習確實牛逼高大上,也是我學習的目標。
那么,可以把機器學習部分也加進你的“大數據平臺”了。
轉載于:https://www.cnblogs.com/tolazychen/p/8336037.html
總結
以上是生活随笔為你收集整理的大数据的起步:初学者的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: eclipse导入远程库的git项目
- 下一篇: 错排、卡特兰数、斯特林数小结