日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

读取模式错误,计算引擎操作复杂……面对Hadoop这些问题该如何应对?

發(fā)布時間:2024/8/23 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 读取模式错误,计算引擎操作复杂……面对Hadoop这些问题该如何应对? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者 |?Monte Zweben

譯者 | 天道酬勤,責編 | Carol

封圖 | CSDN 付費下載自視覺中國

Apache Hadoop于2006年出現(xiàn)在IT領域,它使用商品硬件,為組織提供前所未有的數(shù)據(jù)量存儲能力。不僅解決了數(shù)據(jù)集的大小問題,還解決了數(shù)據(jù)類型問題,比如由物聯(lián)網(wǎng)設備、傳感器、服務器和社交媒體生成的數(shù)據(jù),企業(yè)對這些數(shù)據(jù)的分析越來越感興趣。數(shù)據(jù)量、速度和多樣性的結合被普遍稱為大數(shù)據(jù)。

讀取模式在Hadoop的普及中起著至關重要的作用。企業(yè)認為他們不必再擔心定義哪些表包含哪些數(shù)據(jù)以及它們是如何相互連接的繁瑣過程了—這個過程花了幾個月的時間,而且在完成之前無需執(zhí)行任何數(shù)據(jù)倉庫查詢。在這個發(fā)展的新世界里,企業(yè)在基于Hadoop的存儲庫(稱為數(shù)據(jù)湖)中存儲盡可能多的數(shù)據(jù),并擔心以后如何對其進行分析。

企業(yè)開始出現(xiàn)數(shù)據(jù)湖。這些數(shù)據(jù)湖由商業(yè)大數(shù)據(jù)分發(fā)支持的——平臺中支持許多獨立的開源計算引擎,這些引擎使數(shù)據(jù)湖以不同方式分析數(shù)據(jù)。最重要的是,所有這些都是開源的,可以免費試用!不過,用起來會出現(xiàn)什么問題?今天一起來看看。

讀取模式是錯誤的

被譽為Hadoop優(yōu)勢的特性被證明是其致命弱點。首先,隨著寫模式限制的解除,TB級的結構化和非結構化數(shù)據(jù)開始流入數(shù)據(jù)湖。由于Hadoop的數(shù)據(jù)治理框架和功能仍在定義中,企業(yè)難以確定其數(shù)據(jù)湖的內(nèi)容和數(shù)據(jù)沿襲。

另外,數(shù)據(jù)還沒有準備好。企業(yè)對數(shù)據(jù)湖中的數(shù)據(jù)失去信心,慢慢地,這些數(shù)據(jù)湖開始變成數(shù)據(jù)沼澤。讀取模式的“構建它,它們就會到來”的哲學失敗了。

Hadoop復雜性和管道式的計算引擎

其次,Hadoop發(fā)行版提供了許多開源計算引擎,例如Apache Hive,Apache Spark和Apache Kafka,僅舉幾例,但這證明是一件好事。一個恰當?shù)睦印粋€商業(yè)Hadoop平臺由26個這樣的獨立引擎組成。這些計算引擎操作起來很復雜,需要專門的技術才能將他們連接在一起,這在市場上很難找到。

錯誤的焦點:數(shù)據(jù)湖與應用程序

第三個也是最重要的一個,由于企業(yè)優(yōu)先考慮將所有企業(yè)數(shù)據(jù)存儲在一個中心位置,所有開發(fā)人員都可以使用這些數(shù)據(jù)——一個數(shù)據(jù)倉庫,不考慮應用程序如何使用數(shù)據(jù),數(shù)據(jù)湖項目就開始失敗了。

因此,Hadoop集群常常成為企業(yè)數(shù)據(jù)管道的網(wǎng)關,這些數(shù)據(jù)管道過濾、處理和轉換數(shù)據(jù),然后導出到其他數(shù)據(jù)庫和數(shù)據(jù)集市,用于下游報告,并且?guī)缀跤肋h無法在操作架構中找到通往真實業(yè)務應用程序的方式。

數(shù)據(jù)湖最終變成了一組巨大的完全不同的計算引擎,它們在完全不同的工作負載上運行,共享相同的存儲,這很難管理。這個生態(tài)系統(tǒng)中的資源隔離和管理工具正在改善,但它們?nèi)杂泻荛L的路要走。所有這些復雜性——只是為了報告。

大多數(shù)情況下,企業(yè)無法將重點從使用數(shù)據(jù)湖作為廉價的數(shù)據(jù)存儲庫和處理管道轉移到使用數(shù)據(jù)并支持關鍵任務應用程序的平臺。例如,Apache Hive和Apache Spark是Hadoop數(shù)據(jù)湖中使用最廣泛的計算引擎。這兩種引擎都用于分析目的——處理類似SQL的查詢(Hive)或執(zhí)行類似SQL的數(shù)據(jù)轉換并構建預測模型(Spark)。這些數(shù)據(jù)湖實現(xiàn)對于如何在應用程序中使用數(shù)據(jù)不夠關注。

未來的戰(zhàn)略

如果你關心Hadoop生態(tài)系統(tǒng)的最新發(fā)展,在證明數(shù)據(jù)湖的價值方面面臨越來越大的壓力,那么你應該首先關注操作應用程序,然后再回到數(shù)據(jù)。

通過關注具有數(shù)據(jù)和智能的應用程序的現(xiàn)代化,你最終獲得能夠利用數(shù)據(jù)根據(jù)經(jīng)驗預測未來可能發(fā)生的事情的應用程序,并能夠積極主動地做出決策,從而產(chǎn)生卓越的業(yè)務結果。以下是成功的應用程序現(xiàn)代化策略的五個要素:

(1)?選擇一個現(xiàn)代化的應用程序:首先,選擇一個你想要現(xiàn)代化的應用程序,而不是集中精力在數(shù)據(jù)上。最適合的解決方案是是許多在市場上落后的定制應用程序之一,這些應用程序需要變得更加敏捷、智能和數(shù)據(jù)驅動。一旦確定了可以為你帶來競爭優(yōu)勢的應用程序,你就可以集中精力采購支持該應用程序所需的數(shù)據(jù),以及是否可以從數(shù)據(jù)湖中獲取該數(shù)據(jù)。

(2) 使用橫向擴展SQL進行應用程序現(xiàn)代化:多年來,SQL一直是企業(yè)工作負載中的主力軍,在你組織中有數(shù)百名開發(fā)人員,業(yè)務分析師和IT人員完全熟悉SQL。不會因為將原始SQL應用程序重寫為低級NOSQL API而產(chǎn)生額外的時間、費用和風險。選擇一個平臺,使你能夠維護SQL的熟悉的模式和強大的功能,使應用程序現(xiàn)代化,但是要在一個能夠在廉價的基礎設施上彈性地向外擴展的架構上實現(xiàn)。橫向擴展使整個群集具有強大的計算能力,使其比在集中式系統(tǒng)上運行的舊SQL系統(tǒng)快得多。通過橫向擴展,你還可以添加更多容量,并隨著工作負載的變化而減少容量。

(3)采用ACID平臺:ACID遵從性是一種機制,通過該機制事務可以維護數(shù)據(jù)庫中的完整性,并允許用戶執(zhí)行諸如提交和回滾等操作。對于操作應用程序來說,這是一項至關重要的功能,它可以確保數(shù)據(jù)庫在發(fā)出提交之前,不會使更改對其他人可見。選擇在數(shù)據(jù)庫中的各個事務級別上提供ACID功能的平臺。否則,所有這些一致性后果都需要在應用程序代碼中處理。所有傳統(tǒng)的SQL系統(tǒng)都兼容ACID。數(shù)據(jù)湖不滿足這一點,使得應用程序難以編寫。

(4) 結合分析:根據(jù)Gartner最近的一篇博客,在過去有充分的理由將IT基礎架構分為操作(OLTP)和分析(OLAP)組件,但現(xiàn)在不再如此。ETL用延遲扼殺了我們的SLA。以前,操作和分析工作負載會相互干擾,必須將它們分開。此外,舊數(shù)據(jù)平臺的性能非常差,我們必須將操作方案轉換為更適合分析工作負載的星型方案或雪花型方案。ETL不再是必須的,你可以經(jīng)常使用操作模式在操作平臺上運行分析。通過實現(xiàn)這個平臺,確保你的應用程序在一個平臺上運行,該平臺能夠最大程度地減少數(shù)據(jù)移動并且不會增加應用程序的延遲。與昨天或上周的數(shù)據(jù)相比,它提供了你當前的見解,報告和儀表盤。

(5) 嵌入本機機器學習:應用程序現(xiàn)代化的主要原因之一是將AI和ML注入應用程序中,使它從經(jīng)驗中學習,動態(tài)地適應變化并及時做出決策。為了使你的應用程序智能化,選擇一個在數(shù)據(jù)庫級別內(nèi)置了機器學習功能的平臺是至關重要的,這樣更新的數(shù)據(jù)可供模型進行實驗,訓練和執(zhí)行。

這與迄今為止使用的數(shù)據(jù)湖完全不同。這種方法通過目前可以利用數(shù)據(jù)湖的應用程序,更快地為業(yè)務線提供了切實的商業(yè)價值。

這種方法將確保除了為你的業(yè)務提供競爭優(yōu)勢的應用程序現(xiàn)代化之外,還可以保留在數(shù)據(jù)湖中的投資。

原文鏈接:https://hackernoon.com/what-happened-to-hadoop-what-should-you-do-now-3i1i3v6r

本文為 CSDN 翻譯,轉載請注明出處。

推薦閱讀

  • 云計算,巨頭們的背水一戰(zhàn)

  • 整理了一份 Docker系統(tǒng)知識,從安裝到熟練操作看這篇就夠了 | 原力計劃

  • 借助大數(shù)據(jù)進行社交媒體營銷,企業(yè)們得這么玩!

  • 追憶童年,教你用Python畫出兒時卡通人物

  • AI 終極問題:我們的大腦是一臺超級計算機嗎?

  • 公鏈的歷史交叉口:PoS還能走多遠?

真香,朕在看了!

總結

以上是生活随笔為你收集整理的读取模式错误,计算引擎操作复杂……面对Hadoop这些问题该如何应对?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。