《HBase权威指南》一导读
前 言
HBase權威指南
你閱讀本書的理由可能有很多。可能是因為聽說了Hadoop,并了解到它能夠在合理的時間范圍內處理PB級的數據,在研讀Hadoop的過程中發現了一個處理隨機讀寫的系統,它叫做HBase。或者將其稱為目前流行的一種新的數據存儲架構,傳統數據庫解決大數據問題時成本更高,更適合的技術范圍是NoSQL。
無論你是如何來到這里的,我都希望你能夠了解并學習如何在企業或組織中使用HBase解決海量數據問題。你可能有關系型數據庫的背景,但更希望去研究這個“列式存儲”系統;也許你聽說HBase能夠不費力地進行線性拓展,并且有足夠的理由成為下一代網絡系統。
在2007年年底,我曾面臨百萬級的文檔存儲需求,并且需要滿足容錯和可擴展等要求。我擁有豐富的MySQL數據庫經驗,并使用這種數據庫來存儲數據,最終服務于我的網站的用戶。MySQL可以在運行于一臺服務器的同時,擁有另一臺備份服務器,其無法應對如此海量數據的處理,于是我只好尋找其他可用的存儲數據庫。
我的口頭禪是:“Google是如何解決這類問題的?”后來我接觸了Hadoop,在短暫使用Hadoop之后,我面臨隨機讀寫的問題——但是這個問題已經得以解決:2006年Google發表了BigTable①論文,Hadoop開發者擁有了BigTable的開源實現,并稱其為HBase。這就是解決我的問題的答案,所以這一切看起來順理成章……
如今,我已經不再回憶自己剛開始接觸Hadoop和HBase的日子有多艱難了。我希望可以從今天開始使用HBase,HBase目前已經成熟,接近1.0版本,并且目前已經有大量知名企業在使用,如Facebook、Adobe、Twitter、Yahoo!、趨勢科技和StumbleUpon(http://wiki.apache.org/hadoop/HBase/PoweredBy)。我的集群是第一個生產集群(迄今為止),到目前也遇到了許多有趣的問題。
如預期所料,HBase從0.1x版本開始成為社區項目,我有幸為這個項目貢獻代碼,并最終被要求成為全職的committer。
過去幾年我從其他開發者身上學到了許多知識,并且一直在努力地學習。我的信念是,我們還遠沒有達到這個技術的頂峰,而這個技術也會隨著時間的推移不斷地成長和演變。讓我們用這本書對整個HBase開發者社區致以敬意,我的寫作目標不僅僅是覆蓋HBase的工作機制,而且還要為用戶提供如何將這一技術用到自己的使用場景中。
我強烈地感覺到你來到這里的原因是打算使用HBase解決你遇到的問題。現在讓我們來解開謎底。
目 錄
第1章 簡介
1.1 海量數據的黎明
1.2 關系數據庫系統的問題
1.3 非關系型數據庫系統Not-Only-SQL(簡稱NoSQL)
1.4 結構
1.5 HBase:Hadoop數據庫
第2章 安裝
第3章 客戶端API:基礎知識
3.1 概述
3.2 CRUD操作
3.3 批量處理操作
3.4 行鎖
3.5 掃描
3.6 各種特性
第4章 客戶端API:高級特性
第5章 客戶端API:管理功能
第6章 可用客戶端
第7章 與MapReduce集成
第8章 架構
第9章 高級用法
第10章 集群監控
第11章 性能優化
第12章 集群管理
總結
以上是生活随笔為你收集整理的《HBase权威指南》一导读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 04:布尔表达式
- 下一篇: 《趣学CCNA——路由与交换》一2.3