日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据相关技术说明(一)

發布時間:2025/3/15 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据相关技术说明(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.什么是ETL

?? ETL,Extraction-Transformation-Loading的縮寫,中文名為數據抽取、轉換和加載。ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫數據集市中,成為聯機分析處理數據挖掘的基礎。ETL是BI項目最重要的一個環節,通常情況下ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。ETL也是一個長期的過程,只有不斷的發現問題并解決問題,才能使ETL運行效率更高,為項目后期開發提供準確的數據。

?? ETL作為BI/DW(Business Intelligence)的核心和靈魂,能夠按照統一的規則集成并提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。如果說數據倉庫的模型設計是一座大廈的設計藍圖,數據是磚瓦的話,那么ETL就是建設大廈的過程。在整個項目中最難部分是用戶需求分析和模型設計,而ETL規則設計和實施則是工作量最大的,約占整個項目的60%~80%,這是國內外從眾多實踐中得到的普遍共識。

?? ETL是數據抽取(Extract)、清洗(Cleaning)、轉換(Transform)、裝載(Load)的過程。是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。

?

在技術上,ETL主要涉及到關聯、轉換、增量、調度和監控等幾個方面;數據倉庫系統中數據不要求與聯機事務處理系統中數據實時同步,所以ETL可以定時進行。但多個ETL的操作時間、順序和成敗對數據倉庫中信息的有效性至關重要。

ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider。

ETL工具的典型代表有:nformatica、Datastage、OWB、微軟DTS、Beeload、Kettle……

2.什么是數據倉庫?

?

(1)定義:

數據倉庫是決策支持系統(dss)和聯機分析應用數據源的結構化數據環境。數據倉庫研究和解決從數據庫中獲取信息的問題。數據倉庫的特征在于面向主題、集成性、穩定性和時變性。

數據倉庫 ,由數據倉庫之父比爾·恩門(Bill Inmon)于1990年提出,主要功能仍是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,并進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。

數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數據倉庫》)一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策(Decision Making Support)。

2.數據倉庫的特點

1、數據倉庫是面向主題的;操作型數據庫的數據組織面向事務處理任務,而數據倉庫中的數據是按照一定的主題域進行組織。主題是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。

2、數據倉庫是集成的,數據倉庫的數據有來自于分散的操作型數據,將所需數據從原來的數據中抽取出來,進行加工與集成,統一與綜合之后才能進入數據倉庫;

數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。

數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

3、數據倉庫是不可更新的,數據倉庫主要是為決策分析提供數據,所涉及的操作主要是數據的查詢;

4、數據倉庫是隨時間而變化的,傳統的關系數據庫系統比較適合處理格式化的數據,能夠較好的滿足商業商務處理的需求。穩定的數據以只讀格式保存,且不隨時間改變。

5、匯總的。操作性數據映射成決策可用的格式。

6、大容量。時間序列數據集合通常都非常大。

7、非規范化的。Dw數據可以是而且經常是冗余的。

8、元數據。將描述數據的數據保存起來。

9、數據源。數據來自內部的和外部的非集成操作系統。

數據倉庫,是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源、為了決策需要而產生的,它并不是所謂的“大型數據庫”。數據倉庫的方案建設的目的,是為前端查詢和分析作為基礎,由于有較大的冗余,所以需要的存儲也較大。為了更好地為前端應用服務,數據倉庫往往有如下幾點特點:

1.效率足夠高。數據倉庫的分析數據一般分為日、周、月、季、年等,可以看出,日為周期的數據要求的效率最高,要求24小時甚至12小時內,客戶能看到前一天的數據分析。由于有的企業每日的數據量很大,設計不好的數據倉庫經常會出問題,延遲1-3日才能給出數據,顯然不行的。

2.數據質量。數據倉庫所提供的各種信息,肯定要準確的數據,但由于數據倉庫流程通常分為多個步驟,包括數據清洗,裝載,查詢,展現等等,復雜的架構會更多層次,那么由于數據源有臟數據或者代碼不嚴謹,都可以導致數據失真,客戶看到錯誤的信息就可能導致分析出錯誤的決策,造成損失,而不是效益。

3.擴展性。之所以有的大型數據倉庫系統架構設計復雜,是因為考慮到了未來3-5年的擴展性,這樣的話,未來不用太快花錢去重建數據倉庫系統,就能很穩定運行。主要體現在數據建模的合理性,數據倉庫方案中多出一些中間層,使海量數據流有足夠的緩沖,不至于數據量大很多,就運行不起來了。

從上面的介紹中可以看出,數據倉庫技術可以將企業多年積累的數據喚醒,不僅為企業管理好這些海量數據,而且挖掘數據潛在的價值,從而成為通信企業運營維護系統的亮點之一。正因為如此,

廣義的說,基于數據倉庫的決策支持系統由三個部件組成:數據倉庫技術,聯機分析處理技術和數據挖掘技術,其中數據倉庫技術是系統的核心,在這個系列后面的文章里,圍繞數據倉庫技術,介紹現代數據倉庫的主要技術和數據處理的主要步驟,討論在通信運營維護系統中如何使用這些技術為運營維護帶來幫助。

4.面向主題

操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。主題是與傳統數據庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業信息系統中的數據綜合、歸類并進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。數據倉庫排除對于決策無用的數據,提供特定主題的簡明視圖。

(3)數據倉庫的用途

信息技術與數據智能大環境下,數據倉庫在軟硬件領域、Internet 和企業內部網解決方案以及數據庫方面提供了許多經濟高效的計算資源,可以保存極大量的數據供分析使用,且允許使用多種數據訪問技術。

開放系統技術使得分析大量數據的成本趨于合理,并且硬件解決方案也更為成熟。在數據倉庫應用中主要使用的技術如下:

并行

計算的硬件環境、操作系統環境、?數據庫管理系統和所有相關的數據庫操作、查詢工具和技術、應用程序等各個領域都可以從并行的最新成就中獲益。

分區

分區功能使得支持大型表和索引更容易,同時也提高了數據管理和查詢性能。

數據壓縮

數據壓縮功能降低了數據倉庫環境中通常需要的用于存儲大量數據的磁盤系統的成本,新的數據壓縮技術也已經消除了壓縮數據對查詢性能造成的負面影響。[1]

?

3.什么是數據集市?

數據集市

為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以后再用幾個數據集市組成一個完整的數據倉庫。需要注意的就是在實施不同的數據集市時,同一含義的字段定義一定要相容,這樣在以后實施數據倉庫時才不會造成大麻煩。

國外知名的Garnter關于數據集市產品報告中,位于第一象限的敏捷商業智能產品有QlikView, Tableau和SpotView,都是全內存計算的數據集市產品,在大數據方面對傳統商業智能產品巨頭形成了挑戰。國內BI產品起步較晚,知名的敏捷型商業智能產品有PowerBI,?永洪科技的Z-Suite,SmartBI等,其中永洪科技的Z-Data Mart是一款熱內存計算的數據集市產品。國內的德昂信息也是一家數據集市產品的系統集成商

?

4.什么是數據挖掘(DM--Data Mining

?? 數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數據中,提取隱含在 其中的、人們所不知道的、但又是潛在有用信息和知識的過程。

數據挖掘可以用來做什么?

數據挖掘能做以下七種不同事情(分析方法):

  · 分類 (Classification)

  ·?估值(Estimation)

  · 預言(Prediction)

  · 相關性分組或關聯規則(Affinity grouping or association rules)

  · 聚集(Clustering)

  · 描述和可視化(Description and Visualization)

  · 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)

?

轉載于:https://www.cnblogs.com/duanwxue1128/p/5860809.html

總結

以上是生活随笔為你收集整理的大数据相关技术说明(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。