日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > Ubuntu >内容正文

Ubuntu

[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想

發(fā)布時間:2024/1/17 Ubuntu 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Ubuntu系統(tǒng) (我用到版本號是140.4)

ubuntu系統(tǒng)是一個以桌面應(yīng)用為主的Linux操作系統(tǒng),Ubuntu基于Debian發(fā)行版和GNOME桌面環(huán)境。Ubuntu的目標(biāo)在于為一般用戶提供一個最新的、同時又相當(dāng)穩(wěn)定的主要由自由軟件構(gòu)建而成的操作系統(tǒng),它可免費(fèi)使用,并帶有社團(tuán)及專業(yè)的支持應(yīng)。

作為Hadoop大數(shù)據(jù)開發(fā)測試環(huán)境, 建議大家不要在windows上安裝CgyWin來學(xué)習(xí)或研究, 直接用Vmware+ubuntu來學(xué)習(xí)。

下載?www.vmware.com這里下載vmware,?www.ubuntu.com這里下載ubuntu。

?

Hadoop介紹(我用到版本號是1.2.1)

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點(diǎn),并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。

?

MapReduce編程思想

MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",和它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。 當(dāng)前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。

?

Hadoop能做什么?

很多人或許沒接觸過大量數(shù)據(jù)的開發(fā),例如一個網(wǎng)站日訪問量達(dá)幾千萬以上, 網(wǎng)站服務(wù)器會產(chǎn)生大量的各種日志, 某天上班老板問我想要統(tǒng)計一下什么區(qū)域的人訪問網(wǎng)站最多, 具體數(shù)據(jù)大概是多少? 我曾經(jīng)在一個Hadoop群里提問過, 很多人說我寫個程序就能實現(xiàn), 有人說我自己寫一個分布式的系統(tǒng)來專門計算。 能自己寫一個出來當(dāng)然能證明你的能力, 但某一天老板又問我想知道什么年齡段的人訪問最多, 難道又寫一個分布式的系統(tǒng)來計算? 這是浪費(fèi)人力物力的事情。 而且就算寫得很完美, 也沒經(jīng)過市場用戶的考查, 存在不確定性。 hadoop就完全可以幫你實現(xiàn)各方面的問題, 自己只需要編寫一些特定的java業(yè)務(wù)流程代碼就可以, 穩(wěn)定又可以不斷的隨著業(yè)務(wù)與數(shù)據(jù)的增大而擴(kuò)大。hadoop常用在數(shù)據(jù)統(tǒng)計方面, 例如在幾十G文件中統(tǒng)計某一個單詞出現(xiàn)幾次, 在無數(shù)個數(shù)字當(dāng)中查找最大的值,通過你的程序收集的日志統(tǒng)計出各方營銷的數(shù)據(jù),幫助你實現(xiàn)市場定位與推廣方向。

?

總結(jié)

以上是生活随笔為你收集整理的[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。