日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Hadoop怎么了,大数据路在何方?

發布時間:2025/3/15 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop怎么了,大数据路在何方? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

導讀:近期Hadoop消息不斷,眾說紛紜。本文以Hadoop的盛衰變化為楔子聊下大數據分析的發展現狀和未來趨勢。

作者:姚延棟來源:數字化三部曲(ID:digitxcn)

00 15秒鐘簡縮版

Hadoop:

  • 巔峰已過,正在成為遺留系統
  • Hadoop和分布式數據庫在同一個賽道上,Hadoop在這個賽道上目前并無優勢
  • 大數據:

  • 大數據市場是 SQL市場,是分布式數據庫市場
  • 基礎分析如BI、交互查詢等技術已經成熟
  • 高級分析(機器學習)下沉,向數據庫內嵌分析方向發展
  • 高級分析(機器學習)主要問題不在分析而在數據本身
  • 01 Hadoop 巔峰已過幾多年,正在成為遺留系統

    自2015年開始Hadoop暴露出諸多問題引起注意。隨后Gartner、IDG等公司分析師、Hadoop用戶和Hadoop和大數據圈內人士越來越多的反映出各種問題。

    究其原因,主要如下:

    • Hadoop 棧過于復雜,組件眾多,集成困難,玩轉代價過高
    • Hadoop 創新速度不夠(或者說起點過低),且缺乏統一的理念和管控,使得其眾多組件之間的集成非常復雜
    • 受到Cloud技術的沖擊,特別是類S3對象存儲提供了比HDFS更廉價、更易用、更可伸縮的存儲,撬動了Hadoop的根基HDFS
    • 對 Hadoop 期望過高,Hadoop發跡于廉價存儲和批處理,而人們期望Hadoop搞定大數據所有問題,期望不匹配造成滿意度很低
    • 人才昂貴,且人才匱乏

    Hadoop 巔峰已過成為行業事實,本文不打算在這個問題上繼續論證。有興趣的讀者可以參考網上的諸多評論,甄選了一些筆者覺得有參考價值或沾邊的文章羅列如下(從標題可以感覺到濃厚的蕭瑟之氣):

    • Hadoop還有沒有前途?Hadoop發展歷史和未來方向解讀
    • Hadoop 氣數已盡:逃離復雜性,擁抱云計算
    • 超越云計算:對數據庫管理系統未來的思考
    • Big Data Is Still Hard. Here’s Why
    • Big Data Will Get By (but>Cloudera and Hortonworks merger means Hadoop’s influence is declining
    • From data ingestion to insight prediction: Google Cloud smart analytics accelerates your business transformation
    • Hadoop is Dead. Long live Hadoop (中文翻譯:Hadoop已死,Hadoop萬歲)
    • Hadoop Has Failed Us, Tech Experts Say
    • Hadoop Past, Present, and Future
    • Hadoop: Past, present and future(又一個)
    • Hadoop runs out of gas
    • Hadoop Struggles and BI Deals: What’s Going On?
    • Hitting the Reset Button>Is Hadoop officially dead
    • Mike Olson>More turbulence is coming to the big-data analytics market in 2019
    • Object and Scale-Out File Systems Fill Hadoop Storage Void
    • The Decline of HADOOP and Ushering An Era of Cloud
    • The elephant’s dilemma: What does the future of databases really look like?
    • The Future of Database Management Systems is Cloud!
    • The history of Hadoop
    • Why is Hadoop dying?

    Ok,如果你和我一樣,把上面所有文章都讀了一個遍,說明你確實對這個問題很感興趣。發郵件給我(yyao@pivotal.io),請你喝酒細聊。

    Hadoop 是否還能重振雄風?Hadoop 若要重回大數據的中心,需要的是信心和時間,然而現在 Hadoop 最缺的恰恰是信心和時間。

    業界已經給了 Hadoop 十多年的時間,不管什么原因,Hadoop 沒有很好的解決大數據的問題,甚至沒有很好的解決大數據的基本問題。人們很難相信再給它十年時間就可以搞定。

    隨著問題暴露面越來越廣,業界對 Hadoop 的信心逐漸大幅下滑。同樣緊要的是,和十多年前沒有選擇不同,現在業界有多種大數據方案(特別是開源方案)可供選擇。

    然而這并不意味著 Hadoop 會消失,經過十多年的發展,現在全球部署有很多 Hadoop 集群,這些遺留資產及其衍生需求會持續相當一段時間。

    Hadoop 的根基 HDFS 受到對象存儲挑戰,在公有云上已經敗下陣來,在企業內部暫時會保住守勢,然而隨著云廠商進入企業級市場,很快也會面臨極大挑戰。Hadoop 也在向對象存儲發展,將來或許有望成為多種對象存儲解決方案中的一個候選項,然而可以肯定的是Hadoop不再是討論的中心。

    HortonWorks 聯合創始人、CPO,現任Cloudera CPO Arun C Murthy于2019年9月10日發文表示:

    The old way of thinking about Hadoop is dead — done, and dusted. Hadoop as a philosophy to drive an ever-evolving ecosystem of open source technologies and open data standards that empower people to turn data into insights is alive and enduring.?

    譯文:你所認為的傳統的Hadoop已經死了,確實如此。但Hadoop作為一門哲學,推動不斷發展的開源技術生態系統和開放數據標準,使人們能夠將數據轉化為洞察力,這門哲學是充滿活力和持久的。

    ——Arun C Murthy

    “形而上者謂之道,形而下者謂之器”。無器以為載體,則坐而論道。

    02 Hadoop 市場是數據倉庫市場,然而在這個市場里目前并不占優勢

    首先捋一下Hadoop 幾個主要組件的發展脈絡。

    • Apache Nutch是Hadoop一哥Doug Cutting 寫的開源網頁爬蟲。為了存儲海量網頁,Nutch需要一個分布式存儲層。受Google GFS論文的啟發,Doug 設計了一個開源GFS實現,成為后來的 HDFS。相比于當時昂貴的磁盤陣列和SAN,HDFS提供了廉價、高可靠且可擴展的存儲;
    • 分布式存儲層解決后,Nutch需要能適應分布式環境的并行計算模型。受Google MapReduce 論文的啟發,Doug 設計了開源版的MapReduce。HDFS和MapReduce解決了大數據的存儲和計算問題,受到當時受困于大數據問題的大型互聯網公司的追捧,很快 Hadoop 吸引了大量的開發者,成為 Apache 頂級項目;
    • Hadoop解決了有無問題。很快人們發現MapReduce復雜度很高,即使技術實力強大如Facebook都很難寫出高效正確的MapReduce程序。此外除了解決批處理問題,人們需要Hadoop能解決其遇到的交互式查詢任務。為此,Facebook 開發了Hive,該項目快速流行起來,到現在還有很多用戶。Facebook當時更是高達95%的用戶使用Hive而不是裸寫MapReduce程序。
    • 由于Hadoop 不是為交互式處理而設計,Hive 效率低,并發度也低。此外Hive不支持標準SQL,使得和其他產品的集成困難重重。為此Cloudera開發了Impala。Impala 實際上是一款分布式 MPP(大規模并行處理) 數據庫。

    從上面的發展脈絡可以清楚的看出,Hadoop 從分布式存儲和并行計算模型開始,逐漸發展成了MPP數據庫,而MPP數據庫做為成熟數據倉庫解決方案已經發展了三十多年。可見Hadoop市場主要是SQL市場。

    然而Hadoop和其他經典MPP數據庫相比,從性能、SQL兼容性、擴展性等各個方面來看,Hive、Impala等并不占優勢。Gartner 2019年發布的數據分析市場排名,Hadoop 三大發行商排名都在十名以外(前三名是 Teradata、Oracle和Greenplum)。

    從市場角度也印證了這一說法:Cloudera 官方表示其收入的75%來自于 SQL產品。最近(2019年9月4日)Cloudera宣布收購AI驅動的云原生BI廠商Arcadia Data,印證了Hadoop市場領頭羊Cloudera發力的發展方向。上文中提到的Cloudera CPO也公開指出:

    For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company.

    03 大數據分析市場當前是 SQL 市場

    大數據分析包括兩個層面,第一個層面是基本分析,第二個層面是高級分析。

    基本分析層面涉及的主要應用和場景為 BI、交互查詢、可視化等場景。這些場景使用的主流核心技術是 SQL,BI等產品的基本玩法是 SQL+圖形用戶界面(UI)。和此相關的主要SQL特性是分組(group by)和聚集(aggregation)、窗口(window)函數、數據立方格(Cube)等。

    這些SQL功能背后的主要計算基本都是小學數學中的加減乘除,看起來高大上的“大數據分析”大都是些小學數學的東西,當然對海量數據進行這些分組加減乘除且保證ACID特性是很有挑戰性的。諸如 Greenplum、Vertica 之類的分布式MPP 數據庫已經很好的解決了這些問題。

    高級分析層面涉及到諸如機器學習、模式識別、AI等復雜算法的采用。目前這一層面有下沉到數據庫內部的趨勢。Apache MADLib 是最早引領這一趨勢的成熟商業產品。2017年谷歌發布了BigQuery ML亦是基于SQL的高級分析方案。對此感興趣的請參見數據庫內建分析介紹一文。

    從大數據分析的兩個層面來看,其核心均為 SQL。

    注:對更多這方面信息感興趣,以及對數據處理平臺演進歷史和其原動力感興趣的朋友,可參考Greenplum中文社區資料下載頁面的《2.數據處理平臺之演進》和《3.大數據≈分布式數據庫》。

    04 高級數據分析之難點不在分析而在數據本身

    如果你有足夠多整潔的數據,那么高級數據分析對你而言不是問題。

    這里“足夠多”不一定意味著PB級海量數據,僅指可以滿足需求的數據量,不同場景需求不同,從MB到GB到PB級不等。高級數據分析不一定需要大數據,現在還廣為使用的商業分析產品如SAS、SPSS都是單節點的,可處理數據量大不到那里去。

    大量的研究也證明,即使所用算法不變,數據量越大,模型的精度也會更好,結果準確度也越好。因而盡量使用更多數據,使用全量數據而不是抽樣成為提升精度的首要手段。

    “整潔”意味著數據是標準的、準確的。然而現實卻遠非如此。不準確的數據會造成高級分析結果的嚴重偏差。

    數據工程師和數據科學家面臨著數據發現、數據集成和數據清洗等大量復雜問題。為了解決這些問題,數據科學家需要花費大量時間去整理數據而不是分析數據。大量報道表明,數據科學家花費至少70%以上的時間進行數據發現、集成和清洗工作。

    iRobot上一位數據科學家甚至表示:“我90%的時間用于發現和清洗數據,剩余10%時間中的90%用于糾正清洗過程中的錯誤”。這或許有些夸張,然而數據庫科學家的主要工作內容可見一斑。如何提高數據工作者這方面的效率是目前國內外非常活躍的投資領域。

    05 總結

    綜上,作為第一代大數據方案的Hadoop巔峰已過,大數據進入第二代:分布式數據庫。

    分布式數據庫特別是 MPP 數據庫已經很好的解決了大數據基本分析層面的問題,未來持續向著更易用更快的方向發展。

    高級數據分析向著下沉到數據庫內部的方向發展。高級數據分析層面的難點不在分析,而在于數據本身的數量和質量。期待這一方面有更多創新涌現。

    關于作者:姚延棟,山東大學本科,中科院軟件所研究生,Greenplum 研發總監。PostgreSQL中文社區委員,Greenplum 中文社區發起人。致力于Greenplum/PostgreSQL開源數據庫產品、社區和生態的發展。

    延伸閱讀《Greenplum:從大數據戰略到實現》

    推薦語:本書由Greenplum核心研發團隊精心編寫,融入了團隊十余年來對云計算、大數據和人工智能驅動的企業數字化轉型、先進技術發展趨勢以及產品研發的深刻思考,對Greenplum這款快速成長的開源大數據平臺進行了全方位深度解讀,無論是企業決策者,還是大數據相關的技術人員,都能從本書中獲益。

    有話要說?

    Q:Hadoop還有前途嗎?歡迎留言與大家分享

    猜你想看?

    更多精彩?

    在公眾號對話框輸入以下關鍵詞查看更多優質內容!

    PPT|?報告|?讀書|?書單|?干貨?大數據|?揭秘|?Python|?可視化AI|?人工智能|?5G|?中臺機器學習|?深度學習|?神經網絡合伙人?|?1024|?段子|?數學

    據統計,99%的大咖都完成了這個神操作?

    覺得不錯,請把這篇文章分享給你的朋友
    轉載 / 投稿請聯系:baiyu@hzbook.com更多精彩,請在后臺點擊“歷史文章”查看點擊閱讀原文,了解更多

    總結

    以上是生活随笔為你收集整理的Hadoop怎么了,大数据路在何方?的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。