跟我一起数据挖掘(10)——HP Vertica
考慮到企業(yè)數(shù)據(jù)倉庫的重要戰(zhàn)略意義(EDWs)和每年投入的巨額維護和擴展費用,如何容易地訪問這些大量信息資產(chǎn)是非常迫切的需求。然而,許多EDWs成為自己成功的受害者。隨著時間的推移,用戶獲取新問題答案的需要導(dǎo)致EDWs包含的數(shù)據(jù)量和復(fù)雜數(shù)據(jù)類型發(fā)生迅速增長,同時也帶來更多的并發(fā)和復(fù)雜分析的壓力。如果企業(yè)級數(shù)據(jù)倉庫變得無法應(yīng)付這種變化,或者服務(wù)水平協(xié)議(SLA)不能滿足用戶的要求,企業(yè)則往往不得不進行昂貴的數(shù)據(jù)庫重新設(shè)計或硬件平臺遷移擴容項目,這往往需要持續(xù)好多個月以及帶來大量成本損失。即使如此新的架構(gòu)也往往由于數(shù)據(jù)量增加得太快(目前已經(jīng)有大量的客戶從TB向PB級別擴展),而導(dǎo)致系統(tǒng)不得不進行更多的優(yōu)化,這些優(yōu)化需要占用大量的磁盤存儲,帶來了存儲浪費和I/O瓶頸的問題。因此如何解決在以往EDWs架構(gòu)保持不變的狀況下來滿足新的實時性分析應(yīng)用的需要成為技術(shù)創(chuàng)新的重要領(lǐng)域。Vertica正是這一領(lǐng)域的積極創(chuàng)新先鋒。
下面這篇文章對vertica和inforbright進行了對比:
http://blog.csdn.net/zyz511919766/article/details/27682709
下面是關(guān)于建庫和建表的示例:
http://www.cnblogs.com/jyzhao/p/3779045.html
關(guān)于管理部分可以參考:
http://www.cnblogs.com/jyzhao/p/3798363.html
實測的過億條數(shù)據(jù),在單表查詢的情況下,性能非常理想,推薦一下!
總結(jié)
以上是生活随笔為你收集整理的跟我一起数据挖掘(10)——HP Vertica的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Linux安全】安全口令策略设置
- 下一篇: Hadoop中RPC机制详解之Serve