日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据实践的 6 个阶段

發(fā)布時間:2025/3/12 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据实践的 6 个阶段 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。
本文鏈接:https://blog.csdn.net/csdnnews/article/details/100144731
?

作者 |?彭鋒

責編 | 屠敏

在最新的“2018年Gartner數(shù)據(jù)管理技術(shù)成熟度曲線”報告中,DataOps的概念被首次提出,Gartner標記其目前在“極為初級”這個階段里面,并預計需要5-10年的達到一個技術(shù)成熟時期。

“極為初級”階段是報告描述的技術(shù)成熟曲線的五個階段之一,Gartner預計一項技術(shù)從出現(xiàn)到公眾熟知將經(jīng)歷以下的五個階段:

“極為初級” 階段 一項潛在的技術(shù)突破可以解決問題。早期的概念驗證故事和媒體興趣引發(fā)了重要的宣傳。通常沒有可用的產(chǎn)品存在且商業(yè)可行性未經(jīng)證實。

“爆發(fā)增長”階段 早期宣傳產(chǎn)生了許多成功故事 – 通常伴隨著許多失敗。一些公司采取行動; 大部分都沒有。

“幻滅的低谷” 階段 由于實驗和實施無法實現(xiàn),早期的利好逐漸減弱。該技術(shù)的生產(chǎn)者放棄技術(shù)或宣告失敗。只有幸存的供應商改進其產(chǎn)品以滿足早期采用者的需求,投資才會繼續(xù)。

“啟蒙的斜坡”階段 更多關于技術(shù)如何使企業(yè)受益的實例開始明確并且得到更廣泛的理解。后期迭代的產(chǎn)品來自技術(shù)提供商。更多企業(yè)資助開始注資試點項目; 保守的公司仍然保持謹慎。

“生產(chǎn)力的高原”階段 技術(shù)開始被廣泛接受。評估技術(shù)提供者的可行性的標準更明確。該技術(shù)廣泛的市場適用性和相關性顯然得到了回報。如果該技術(shù)不僅僅是一個利基市場,那么它將繼續(xù)增長。

基于上面的定義,Gartner報告基本上表明DataOps剛剛出現(xiàn)在數(shù)據(jù)管理領域,并且被認為是像在幾年前Spark和流處理一樣的潛在市場顛覆性技術(shù)之一。那么DataOps到底意味著什么?為什么它只是在Hadoop引領大數(shù)據(jù)浪潮近10年后才出現(xiàn)?

我們將嘗試通過描述大數(shù)據(jù)項目的六個階段來回答這些問題,并了解DataOps真正帶來了什么。


階段1 技術(shù)試驗階段

?

在此階段,你的團隊可能會安裝一個Hadoop集群和Hive(可能帶有Sqoop),以便將一些數(shù)據(jù)傳輸?shù)郊翰⑦\行一些查詢。近年來,包括Kafka和Spark在內(nèi)的組件也被考慮在內(nèi)。如果要進行日志分析,也可以安裝ELK(ElasticSearch,LogStash,Kibana)等套件。

但是,這些系統(tǒng)大多數(shù)都是復雜的分布式系統(tǒng),其中一些系統(tǒng)需要數(shù)據(jù)庫支持。雖然許多提供單節(jié)點模式供你使用,但你的團隊仍需要熟悉常見的Devops工具,如Ansible,Puppet,Chef,Fabric等。

由于開源社區(qū)的辛勤工作,對大多數(shù)工程團隊來說,使用這些工具和原型設計應該是可行的。如果團隊里面有一些優(yōu)秀的工程師,你可能會在幾周內(nèi)設置好一個可以聯(lián)通及運行的系統(tǒng),具體的工作量一般取決于你要安裝的組件數(shù)量。

?

?

階段2 自動化階段

?

在這個階段,你已經(jīng)擁有了一個基本的大數(shù)據(jù)系統(tǒng),接下來你的需求可能有:

一些定期運行的Hive查詢,比如每小時一次或每天一次,以生成一些商業(yè)智能報告;

使用一些Spark程序運行機器學習程序,生成一些用戶分析模型,使你的產(chǎn)品系統(tǒng)可以提供個性化服務;

一些需要不時從遠程站點提取數(shù)據(jù)的爬蟲程序;

或一些流數(shù)據(jù)處理程序,用于創(chuàng)建實時數(shù)據(jù)儀表板,顯示在大屏幕上。

?

?

?

?

要實現(xiàn)這些需求,你需要一個作業(yè)調(diào)度系統(tǒng),以根據(jù)時間或數(shù)據(jù)可用性來運行它們。像Oozie,Azkaban,Airflow等工作流系統(tǒng)允許你指定何時運行程序(類似Linux機器上的Cron程序)。

工作流系統(tǒng)之間的功能差異很大。例如,一些系統(tǒng)提供依賴關系管理,允許你指定調(diào)度邏輯,如作業(yè)A僅在作業(yè)B和作業(yè)C完成時運行;一些系統(tǒng)允許僅管理Hadoop程序,而另一些系統(tǒng)則允許更多類型的工作流程。你必須決定一個最符合你要求的。

除了工作流程系統(tǒng),你還有其他需要自動化的任務。例如,如果你的HDFS上的某些數(shù)據(jù)需要在一段時間后刪除,假設數(shù)據(jù)只保留一年,那么在第366天,我們需要從數(shù)據(jù)集中最早的一天中刪除數(shù)據(jù),這稱為數(shù)據(jù)保留策略。你需要編寫一個程序,為每個數(shù)據(jù)源指定并實施數(shù)據(jù)保留策略,否則你的硬盤將很快耗盡。

?

階段3 投入生產(chǎn)階段

?

現(xiàn)在你已經(jīng)擁有了一個自動數(shù)據(jù)管道,數(shù)據(jù)終于可以在這個數(shù)據(jù)流水線上流動起來!大功告成?現(xiàn)實情況是你的生產(chǎn)環(huán)境會遇到下面這些棘手的問題:

第一年硬盤故障率為5.1%(與第一年服務器故障率類似)

第4年服務器的故障率為11%

大量使用的開源程序有很多bug

你的程序可能估計也會有一些bug

外部數(shù)據(jù)源有延遲

數(shù)據(jù)庫有停機時間

網(wǎng)絡有錯誤

有人在運行“sudo rm -rf / usr / local /”時使用了額外的空格

?

?

?

?

?

?

?

?

這些問題發(fā)生的次數(shù)會比你想象的要頻繁得多。假設你有50臺機器,每臺機器有8個硬盤驅(qū)動器,那么一年內(nèi)將有20個硬盤驅(qū)動器故障,一個月大約2個。經(jīng)過幾個月的手動過程掙扎,你終于意識到你迫切地需要:

監(jiān)控系統(tǒng):你需要一個監(jiān)控程序來監(jiān)控硬件,操作系統(tǒng),資源使用情況,程序運行;

系統(tǒng)探針:系統(tǒng)需要告訴你它的各種運行指標,以便它可以被監(jiān)控;

警報系統(tǒng):出現(xiàn)問題時,需要通知運維工程師;

SPOF:避免單點故障,如果你不想在凌晨3點被叫醒,最好系統(tǒng)里不要出現(xiàn)SPOF;

備份:你需要盡快備份重要數(shù)據(jù);不要依賴Hadoop的3份數(shù)據(jù)副本,它們可以通過一些額外的空格被輕松刪除;

恢復:如果你不希望每次發(fā)生時都手動處理所有錯誤,那么這些錯誤最好盡可能自動恢復。

?

?

?

?

?

?

在這個階段你意識到建立一個企業(yè)級的系統(tǒng)并不像安裝一些開源程序那么容易,可能我們要多下一點苦功了。

?

階段4 數(shù)據(jù)管理階段

?

一個企業(yè)級的大數(shù)據(jù)系統(tǒng)不僅要處理與任何標準系統(tǒng)操作類似的硬件和軟件故障問題,還要處理與數(shù)據(jù)相關的問題。對于一個真正數(shù)據(jù)驅(qū)動的IT系統(tǒng),你需要確保你的數(shù)據(jù)完整,正確,準時,并為數(shù)據(jù)進化做好準備。

那么這些意味著什么?

你需要知道在數(shù)據(jù)流水線的任何步驟中數(shù)據(jù)都不會丟失。因此,你需要監(jiān)控每個程序正在處理的數(shù)據(jù)量,以便盡快檢測到任何異常;

你需要有對數(shù)據(jù)質(zhì)量進行測試的機制,以便在數(shù)據(jù)中出現(xiàn)任何意外值時,你接收到告警信息;

你需要監(jiān)控應用程序的運行時間,以便每個數(shù)據(jù)源都有一個預定義的ETA,并且會對延遲的數(shù)據(jù)源發(fā)出警報;

你需要管理數(shù)據(jù)血緣關系,以便我們了解每個數(shù)據(jù)源的生成方式,以便在出現(xiàn)問題時,我們知道哪些數(shù)據(jù)和結(jié)果會受到影響;

系統(tǒng)應自動處理合法的元數(shù)據(jù)變更,并應立即發(fā)現(xiàn)和報告非法元數(shù)據(jù)變更;

你需要對應用程序進行版本控制并將其與數(shù)據(jù)相關聯(lián),以便在程序更改時,我們知道相關數(shù)據(jù)如何相應地更改。

?

?

?

?

?

?

此外,在此階段,你可能需要為數(shù)據(jù)科學家提供單獨的測試環(huán)境來測試其代碼。并給他們提供各種便捷和安全的工具,讓他們能快速驗證自己的想法,并能方便地發(fā)布到生產(chǎn)環(huán)境。

?

?

階段5 重視安全性階段

?

在這個階段大數(shù)據(jù)已經(jīng)與你密不可分:面向客戶的產(chǎn)品由數(shù)據(jù)驅(qū)動,你的公司管理層依靠實時的業(yè)務數(shù)據(jù)分析報告來做出重大決策。你的數(shù)據(jù)資產(chǎn)安全將變得非常最重要,你能確定你的數(shù)據(jù)只有合適的人員才能訪問嗎?并且你的系統(tǒng)擁有身份驗證和授權(quán)方案嗎?

一個簡單的例子是Hadoop的Kerberos身份驗證。如果你沒有使用Kerberos集成運行Hadoop,那么擁有root訪問權(quán)限的任何人都可以模擬Hadoop集群的root用戶并訪問所有數(shù)據(jù)。其他工具如Kafka和Spark也需要Kerberos進行身份驗證。由于使用Kerberos設置這些系統(tǒng)非常復雜(通常只有商業(yè)版本提供支持),我們看到的大多數(shù)系統(tǒng)都選擇忽略Kerberos集成。

除了身份驗證問題,以下是你在此階段需要處理的一些問題:

審計:系統(tǒng)必須審計系統(tǒng)中的所有操作,例如,誰訪問了系統(tǒng)中的內(nèi)容

多租戶:系統(tǒng)必須支持多個用戶和組共享同一個集群,具有資源隔離和訪問控制功能;他們應該能夠安全,安全地處理和分享他們的數(shù)據(jù);

端到端安全性:系統(tǒng)中的所有工具都必須實施正確的安全措施,例如,所有Hadoop相關組件的Kerberos集成,所有網(wǎng)絡流量的https / SSL;

單點登錄:系統(tǒng)中的所有用戶在所有工具中都應具有單一身份,這對于實施安全策略非常重要。

?

?

?

?

由于大多數(shù)開源工具都沒有在其免費版本中提供這些功能,因此許多項目在安全問題上采用“撞大運”的方法并不奇怪。我們同意安全的價值對不同的項目來說有不同的理解,但人們必須意識到潛在的問題并采取適當?shù)姆椒ā?/p>


階段6 云基礎架構(gòu)的大數(shù)據(jù)階段

?

在這個階段隨著業(yè)務的不斷增長,越來越多的應用程序被添加到大數(shù)據(jù)系統(tǒng)中。除了像Hadoop / Hive / Spark這樣的傳統(tǒng)大數(shù)據(jù)系統(tǒng),你現(xiàn)在需要使用TensorFlow運行深度學習,使用InfluxDB運行一些時間序列分析,使用Heron來處理流數(shù)據(jù),或者一些Tomcat程序來提供數(shù)據(jù)服務API。每當你需要運行一些新程序時,你會發(fā)現(xiàn)配置機器和設置生產(chǎn)部署的過程非常繁瑣,并且有很多的坑要踩。此外,有的時候你需要臨時搞到一些機器來完成一些額外的分析工作,例如,可能是一些POC,或者要對一個比較大的數(shù)據(jù)集進行訓練。

這些問題是你首先需要在云基礎架構(gòu)上運行大數(shù)據(jù)系統(tǒng)的原因。像Mesos這樣的云平臺為分析工作負載和一般工作負載提供了極大的支持,并提供了云計算技術(shù)提供的所有好處:易于配置和部署,彈性擴展,資源隔離,高資源利用率,高彈性,自動恢復。

在云計算環(huán)境中運行大數(shù)據(jù)系統(tǒng)的另一個原因是大數(shù)據(jù)工具的發(fā)展。傳統(tǒng)的分布式系統(tǒng)(如MySQL集群,Hadoop和MongoDB集群)傾向于處理自己的資源管理和分布式協(xié)調(diào)。但是現(xiàn)在由于Mesos / Yarn這樣的分布式資源管理器和調(diào)度程序的出現(xiàn),越來越多的分布式系統(tǒng)(如Spark)將依賴底層分布式框架來提供這些資源分配和程序協(xié)調(diào)調(diào)度的分布式操作原語。在這樣的統(tǒng)一框架中運行它們將大大降低復雜性并提高運行效率。

?

總結(jié)

?

我們看到過處于各種階段的實際的大數(shù)據(jù)項目。在Hadoop被采用了10多年之后,我們看到的大部分項目仍然停留在第1階段或第2階段。這里主要的問題是在第3階段實施系統(tǒng)需要大量的專業(yè)知識和大量投資。Google的一項研究表明,構(gòu)建機器學習系統(tǒng)所花費的時間中只有5%用于實際的機器學習代碼,另外95%的時間用于建立正確的基礎架構(gòu)。由于數(shù)據(jù)工程師因難以培訓而非常昂貴(由于需要對分布式系統(tǒng)有很好的理解),因此大多數(shù)公司都很不幸的沒能走進大數(shù)據(jù)時代的快車道。

與DevOps一樣,DataOps是一個需要正確工具和正確思維的持續(xù)過程。DataOps的目標是使以正確的方式更容易地實現(xiàn)大數(shù)據(jù)項目,從而以更少的工作從數(shù)據(jù)中獲得最大的價值。Facebook和Twitter等公司長期以來一直在內(nèi)部推動類似DataOps的做法。然而,他們的方法通常與他們的內(nèi)部工具和現(xiàn)有系統(tǒng)相綁定,因此很難為其他人推廣。

在過去幾年中,通過Mesos和Docker等技術(shù),大數(shù)據(jù)操作的標準化成為可能。結(jié)合更加廣泛的采用數(shù)據(jù)驅(qū)動的文化,DataOps終于準備好可以進入到大家的視野。我們相信這一運動將降低實施大數(shù)據(jù)項目的障礙,使每個企業(yè)和機構(gòu)都更容易獲取數(shù)據(jù)的最大價值。

【END】
————————————————
版權(quán)聲明:本文為CSDN博主「CSDN資訊」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/csdnnews/article/details/100144731

總結(jié)

以上是生活随笔為你收集整理的大数据实践的 6 个阶段的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。