日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop 之父:普通程序员到顶级公司 CTO 的进阶之路

發(fā)布時間:2025/3/21 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop 之父:普通程序员到顶级公司 CTO 的进阶之路 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

來自:雞仔說(微信號:jizaishuo)

做大數(shù)據(jù)開發(fā)的朋友一定用過 Hadoop 這個工具,它是一款支持數(shù)據(jù)密集型的分布式應用程序。Hadoop 基于分布式檔案系統(tǒng)和 MapReduce 技術,通過節(jié)點分工的模式把海量的數(shù)據(jù)處理工作分發(fā)至多臺機器上,再將每臺機器處理的結果匯總整合。雖然它的邏輯原理并不復雜(即簡單的分治思想),但其中要攻克的技術難點卻頗多,比如早期備受詬病的安全問題、文件存儲壓縮問題等。能開發(fā)出這樣一個工具的人,必定有他的過人之處,那么接下來就跟雞仔一起來了解被譽為 Hadoop 之父的 Doug Cutting,他到底是何許人也?又有哪些值得我們學習的地方呢?

Doug 來自加利福利亞納帕谷的農(nóng)村,1981 年他考上了斯坦福大學。雖然考上了大學,但家庭并不富裕的 Doug 卻喜憂參半。只有借助貸款,他才能負擔起學費

斯坦福大學

在斯坦福,Doug?學習了語言學和計算機相關的課程。他覺得計算機課程很有趣,更重要的是,他發(fā)現(xiàn)學習計算機可以幫他盡早還清貸款。因此,臨近畢業(yè)之際,他沒有選擇繼續(xù)求學深造,而是在施樂公司(看過《喬布斯傳》的朋友應該對這所公司有所了解,這家公司在當時非常有名,它的主要研究領域是印刷相關的技術。)找了一份薪水不錯的工作,他的工作內容是進行自然語言處理和人工智能相關的研究,借此他也有幸參與了在當時比較新潮的一個領域——搜索

施樂的工作環(huán)境

在谷歌之前,有不少公司曾對搜索領域做過探索,而這些公司在 Google 之后都被遺忘了。施樂就是其中的一員,它可以說是搜索領域的先驅。當然,他們對搜索的探索,重點圍繞著自己的主業(yè)開展

我們都知道,施樂一直從事打印、復印相關的業(yè)務,他們當時研究的方向是如何將紙制品電子化。而紙制品電子化面臨的主要問題,除了如何正確地識別紙制品上的文字外,還要保證如何快速檢索這些已電子化的文件資料,Doug 當時從事的主要是后一項工作。這段時間的工作經(jīng)驗積累,讓他在搜索技術的廣度和深度上都得到了極大的提升

?

施樂的豆袋會議室

之后不久,隨著網(wǎng)絡時代到來,以雅虎為代表的基于網(wǎng)絡搜索的公司如雨后春筍一樣涌現(xiàn)出來。Doug 見證了整個搜索行業(yè)的崛起,當時,為了便于用戶檢索互聯(lián)網(wǎng)信息,雅虎采用的方案是分類整合,就是說每當有人新建立一個網(wǎng)站,雅虎便將它添加到雅虎的網(wǎng)站庫目錄中,然后再將網(wǎng)站分成金融、新聞、體育、娛樂等板塊

雅虎中國首頁

雅虎的這個方案雖然能夠幫助人們快速找到對應需求的站點,但無法精細地幫助用戶找到自己的個性化需求。這時候谷歌出現(xiàn)了,它采用的是基于 PageRank 的搜索算法,可以精準地定位人們的檢索目標,幫助人們找到想要的結果。就憑著這點關鍵的技術創(chuàng)新,谷歌搜索業(yè)務迎來了發(fā)展的飛躍期

PageRank算法簡化圖解

Doug?雖然在施樂公司已積累了不少搜索技術的經(jīng)驗,但他探索的搜索技術都是基于離線環(huán)境的,因此數(shù)據(jù)量級不可能很大。Doug 感覺它的技術經(jīng)驗有點紙上談兵。于是在 1997 年底,Doug 決定利用業(yè)余時間寫一個開源項目,他在家以每周兩天的時間投入開發(fā),不久之后,便誕生了第一個開源文本搜索函數(shù)庫——Lucene

Lucene logo

Google 的高速發(fā)展讓 Doug 產(chǎn)生了危機,他擔心日益減少的網(wǎng)絡搜索引擎可能讓信息檢索行業(yè)出現(xiàn)新的商業(yè)壟斷。Doug 于是著手與同事一起開發(fā)出了 Nutch,這是第一個與 Google 進行競爭的大型開源網(wǎng)絡搜索引擎項目。Nutch 雖然開發(fā)出來了,但和之前一樣,Nutch 工具依然沒有經(jīng)歷過實戰(zhàn)檢驗,Doug 接下來要做的,是在大量級的數(shù)據(jù)下,對 Nutch 進行壓測。但大數(shù)據(jù)壓測就意味著要采購大量的設備和數(shù)據(jù)。但 Doug 當時待業(yè)在家,并沒有足夠的財力購買這些設備和數(shù)據(jù)

Nutch 架構示意圖

?

就在?Doug 為測試困擾時,Google 隨即發(fā)布了一份研究報告,報告中介紹了兩款 Google 為了支持自家產(chǎn)品而研發(fā)的軟件平臺,一個是 GFS(即 Google File System),用于存儲不同設備產(chǎn)生的海量數(shù)據(jù)。另外一個是 MapReduce,它在 GFS 上工作,用于分布式大規(guī)模數(shù)據(jù)處理。基于這兩個平臺,Doug 開發(fā)出了大名鼎鼎的 Hadoop

Hadoop logo

這就解決了困擾 Doug 很久的壓測問題,之前可能需要一臺超級計算機才能完成的工作,現(xiàn)在只需要將任務分布在幾臺廉價的計算機上同樣可以完成。Doug 對 Google 的開源大加贊賞「我們開始設想用 4-5 臺電腦來實現(xiàn)這個項目,但在實際運行中牽涉了大量繁瑣的步驟需要靠人工來完成。Google 的平臺讓這些步驟得以自動化,為我們實現(xiàn)整體框架打下了良好的基礎。」

MapReduce 工作流簡化圖

出于時間成本的考慮,Doug 決定結束自己的自由職業(yè)生涯。以此來進一步完善他的 Hadoop 項目。他先找了 IBM ,但 IBM 對他早期的 Lucene 項目更感興趣。就在此時,雅虎的負責人 Raymie Stata 熱情邀請他加入雅虎公司并馬上對搜索業(yè)務項目進行優(yōu)化改造。加入雅虎后,Doug 如虎添翼,他有一支一百人的團隊幫他完善 Hadoop 項目,這大大加速了 Hadoop 項目的發(fā)展。不久之后,雅虎就將它的搜索業(yè)務架構遷移到 Hadoop 上來。兩年后,雅虎啟動了基于 Hadoop 的第一項目 Webmap——一個用來計算網(wǎng)頁間鏈接關系的算法。遷移項目至 Hadoop 的成效立竿見影,在相同的硬件環(huán)境下,基于 Hadoop 的 Webmap 的反應速度是之前系統(tǒng)的 33 倍

雖然 Hapdoop 極大地提高了雅虎的搜索性能,但當時的雅虎是熱鍋上的螞蟻。內部管理,產(chǎn)品定位,技術服務等諸多問題無法得到解決,雅虎的局面實在是江河日下了。由于公司只關注產(chǎn)品,卻不想在技術上有過多的投入,Doug?于是跳槽到了 Cloudera

Cloudera logo

Cloudera 是為某些公司提供技術服務和咨詢的平臺,它的客戶多來自傳統(tǒng)行業(yè)。傳統(tǒng)行業(yè)的客戶有大量的數(shù)據(jù),但不知道如何合理地使用它們,這正好與 Doug 想在 Hadoop 平臺處理更大量的數(shù)據(jù)的想法不謀而合,在這里他有大量的客戶業(yè)務數(shù)據(jù),輔助他更好地完善 Hadoop 項目。值得一提的是,在 Doug 服務傳統(tǒng)企業(yè)的過程中,越來越多的互聯(lián)網(wǎng)巨頭也開始加入了 Hadoop 的隊伍(如 Facebook、eBay、LinkedIn 等),Hadoop 的團隊無形之中被進一步擴大了

目前, 除了作為 Hadoop 之父外,Doug?還有另外一個身份——Cloudera 首席架構師。Cloudera 可以說是 Hadoop 生態(tài)圈最知名的公司了,它的核心產(chǎn)品是為客戶搭建基于 Hadoop 的大數(shù)據(jù)平臺,幫助企業(yè)安裝、配置、運行 Hadoop 以便處理海量的數(shù)據(jù)

Cloudera 版本衍化

談到目前 Hadoop 的發(fā)展趨勢,Doug 很是意外 「我從沒有想過,Hadoop 除了搜索引擎,還能在其它方面發(fā)揮作用,它如今的受關注程度,已經(jīng)完全超過了我之前的想象。」

Doug Cutting

談及他的成功事跡,Doug 覺得主要歸功于兩點:熱情。他喜歡攻克技術難題帶來的成就感,他非常享受自己的程序被千萬人使用的感覺。另外一個就是腳踏實地。Doug 的所有成就都是他一點一滴積累來的,頭頂青天腳踏實地,時間會給人最好的嘉獎

希望 Doug Cutting 的故事對你能有所啟發(fā)。

總結

以上是生活随笔為你收集整理的Hadoop 之父:普通程序员到顶级公司 CTO 的进阶之路的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。