當前位置：首頁 >

大数据的起步：初学者

發布時間：2024/4/17 64 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据的起步：初学者小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作為一個大數據的初學者，要知道學習一些什么，以及如何的去學習，我也是一個初學者，這是我了解到的學習路線，也是我要走的學習路線。

原文路線：http://dataunion.org/31604.html

1、初始Hadoop

學會搭建Hadoop，跑一跑mapreduce，理解一下原理

2、更高效的WordCount

2.1 SQL

2.2 SQL版的wordcount

2.3 Hive SQL ON HADOOP

2.4 安裝配置hive

2.5 使用hive

2.6 hive是怎么工作的

2.7 學會hive的基本命令

具備如下知識點和技能

0和Hadoop2.0的區別；

MapReduce的原理（還是那個經典的題目，一個10G大小的文件，給定1G大小的內存，如何使用Java程序統計出現次數最多的10個單詞及次數）；

HDFS讀寫數據的流程；向HDFS中PUT數據；從HDFS中下載數據；

自己會寫簡單的MapReduce程序，運行出現問題，知道在哪里查看日志；

會寫簡單的SELECT、WHERE、GROUP BY等SQL語句；

Hive SQL轉換成MapReduce的大致流程；

Hive中常見的語句：創建表、刪除表、往表中加載數據、分區、將表中數據下載到本地；

從上面的學習，你已經了解到，HDFS是Hadoop提供的分布式存儲框架，它可以用來存儲海量數據，MapReduce是Hadoop提供的分布式計算框架，它可以用來統計和分析HDFS上的海量數據，而Hive則是SQL On Hadoop，Hive提供了SQL接口，開發人員只需要編寫簡單易上手的SQL語句，Hive負責把SQL翻譯成MapReduce，提交運行。

此時，你的”大數據平臺”是這樣的：

那么問題來了，海量數據如何到HDFS上呢？

3、把別處的數據搞到Hadoop上

3.1 HDFS put命令

3.2 HDFS API

3.3 sqoop

3.4 Flume

你的”大數據平臺”應該是這樣的：

4、把hadoop上的數據搞到別處

4.1 HDFS GET命令

熟練掌握

4.2 HDSF API

4.3 sqoop

使用Sqoop完成將HDFS上的文件同步到MySQL；
使用Sqoop完成將Hive表中的數據同步到MySQL；

你的”大數據平臺”應該是這樣的：

5、SQL更快一點

5.1 關于Spark和SparkSQL

5.2 如何部署和運行SparkSQL

你的”大數據平臺”應該是這樣的：

6、一夫多妻制

6.1 關于Kafka

6.2 如何部署和使用Kafka

你的”大數據平臺”應該是這樣的：

7、越來越多的分析任務

7.1 Apache Oozie

7.2 其他開源的任務調度系統

你的”大數據平臺”應該是這樣的：

8、數據的實時性要求

8.1 Storm

8.2 Spark Streaming

你的”大數據平臺”應該是這樣的：

9、數據要對外

10、高大上的機器學習

在我們的業務中，遇到的能用機器學習解決的問題大概這么三類：

分類問題：包括二分類和多分類，二分類就是解決了預測的問題，就像預測一封郵件是否垃圾郵件；多分類解決的是文本的分類；

聚類問題：從用戶搜索過的關鍵詞，對用戶進行大概的歸類。

推薦問題：根據用戶的歷史瀏覽和點擊行為進行相關推薦。

大多數行業，使用機器學習解決的，也就是這幾類問題。

入門學習線路：

數學基礎；

機器學習實戰（Machine Learning in Action），懂Python最好；

SparkMlLib提供了一些封裝好的算法，以及特征處理、特征選擇的方法。

機器學習確實牛逼高大上，也是我學習的目標。

那么，可以把機器學習部分也加進你的“大數據平臺”了。

轉載于:https://www.cnblogs.com/tolazychen/p/8336037.html

總結

以上是生活随笔為你收集整理的大数据的起步：初学者的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： eclipse导入远程库的git项目
下一篇：错排、卡特兰数、斯特林数小结

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

大数据的起步：初学者

總結