日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库及数据挖掘

發布時間:2024/8/1 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库及数据挖掘 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

建立數據倉庫的意義在于使用這些數據,而最典型的應用是數據挖掘。

一、數據倉庫概述

數據倉庫是一個面向主題、集成、相對穩定、反映歷史變化的數據集合。其中,
1)數據源是數據倉庫系統的基礎,是整個系統的數據源泉
2)OLAP(On-Line Analytical Processing,聯機分析處理)服務器對數據進行有效集成,按多維模型予以組織;
3)前端工具應用、挖掘數據

二、數據倉庫的分類

從結構的角度看,數據倉庫可分為3種模型:

1、企業倉庫
面向企業級應用,搜集企業各個主題的所有信息,提供全企業范圍的數據集成。其數據通常來自多個操作型數據庫(即OLTP,我們應用程序常用的數據庫)和外部信息提供者,并且跨多個功能范圍。

企業倉庫通常包含詳細數據和匯總數據,數據量可達TB級。

2、數據集市
數據集市(Datamart),面向企業部門級應用,針對特定用戶,是企業范圍數據的一個子集,范圍限定于選定的主題。為什么叫集市呢?可能是各取所需之意吧。根據數據來源的不同,分為

1)從屬數據集市(Dependent Datamart)
數據來源于中央數據倉庫。為一些部門單獨復制、加工一份數據,建立數據集市,可以提高部門的訪問速度,也能滿足部門的特殊分析要求。從屬數據集市的數據與中央數據倉庫保持一致,已經經過了處理和檢驗。

2)獨立數據集市(Independent Datamart)
數據直接來源于業務系統。

獨立數據集市優點是建立迅速,成本低廉,但由于各自獨立,想整合成統一的中心數據倉庫時可能會遇到困難,需要重新設計和部門協調等。

3、虛擬倉庫
數據虛擬倉庫(Virtual Warehouse)是視圖的集合。只定義了來自各個操作型數據庫上的查詢,除了一些匯總視圖可能被物化外,并沒有存儲數據。

虛擬倉庫容易建立,但消耗操作型數據庫服務器資源,需要它們具有剩余的工作能力。

【補充知識】

1、數據虛擬化
數據虛擬化 是一種數據管理方法,它允許應用程序檢索和操作數據而無需有關數據的技術細節,例如在源上如何格式化或在物理上位于何處,并可以提供 單一客戶視圖 (或任何其他實體的單一視圖)。數據虛擬化不同于傳統的提取,轉換,加載 (“ ETL”)過程,數據仍然保留在原處,并實時訪問源系統以獲取數據。

數據虛擬化有如下特點:

1)可連接到任何數據來源
數據虛擬化可連接到所有類型的數據來源,包括數據庫、數據倉庫、云應用程序、大數據存儲庫甚至 Excel 文件。

2)可合并任何類型的數據
數據虛擬化可將任意數據格式的相關信息合并到業務視圖中,包括關系數據庫、noSQL、Hadoop、Web 服務和云 API、文件等。

3)可在任何模式下使用數據
數據虛擬化使業務用戶能夠通過報表、儀表板、門戶、移動應用程序和 Web 應用程序使用數據。

2、聯邦數據庫
聯邦數據庫系統 (FDBMS) 是一種元數據庫管理系統,透明地映射多個自治數據庫系統,變成一個聯合數據庫。組成的各數據庫(稱為單元數據庫)可能分散于各個地域,通過計算機網絡連接起來 。由于組成數據庫系統保持自治,因此與合并多個不同數據庫的任務相比,聯邦數據庫系統是一個可對比的替代方案。聯邦數據庫只是一個管理軟件,本身并沒有實際的數據集成。

通過數據抽象,聯邦數據庫系統可以提供統一的用戶界面,而存儲和檢索的數據來自多個不連續的資料庫,甚至構成的數據庫是異質的。為此,聯邦數據庫系統必須能夠將查詢分解為子查詢以提交給相關組成部分。 之后系統也必須能將各子查詢的結果集匯集。由于各種數據庫管理系統采用不同的查詢語言,聯邦數據庫系統可以將子查詢加以轉換為適當的查詢語言。

一個單元數據庫可以加入若干個聯邦系統,每個單元數據庫系統可以是集中式的,也可以是分布式的,或者是另外一個FDBMS。

3、主題數據庫
主題數據庫,顧名思義,這種數據庫是面向主題的,根據不同的業務主題來進行組織和存儲。例如,企業中需要建立的典型的主題數據庫有:產品、客戶、零部件、供應商、訂貨、員工、文件資料、工程規范等。

與應用數據庫只為一個應用系統服務,或者說根本就是隸屬于特定的應用系統不同,主題數據庫是為了信息共享。意思就是說,這個數據庫是公共數據庫,作為一種基礎的數據資源而存在,可以給多個應用系統使用。這種數據資源,根據不同的業務主題分門別類,井井有條,一切都為了方便使用。

主題數據庫有一些特點。其中之一是表符合第三范式(3NF),規范化程度還是比較高的。這意味著主題數據庫的表中沒有冗余列、派生列、計算列這些東東,消除了非主屬性對主屬性的傳遞依賴。

4、聯邦數據庫與分布式數據庫的異同
(我瞎掰的)

【相同點】
數據分布于不同計算機或地方,通過網絡連接起來;每個節點(或稱子數據庫)都有自治能力;以一個統一的數據庫對外提供服務。

【不同點】
聯邦數據庫的子數據庫可以是異質的,而分布式數據庫各節點數據庫是同質的;聯邦數據庫的子數據庫不同執行全局應用,而分布式數據庫的節點可以通過通信子系統執行全局應用;聯邦數據庫的子數據庫相互之間沒有什么聯系,數據可能不一樣,而分布式數據庫的節點可以存在多個副本,分布式數據庫的可靠性比聯邦數據庫要高。本質上,聯邦數據庫是一個管理軟件,本身并不存儲數據,而分布式數據庫是真正的數據庫。

三、數據倉庫的設計方法

1、自頂向下的方法
由總體規劃和設計開始,通過對原始數據進行抽取、轉換和遷移等處理之后,將數據輸出至一個集中的數據駐留單元,然后數據和元數據裝載進入數據倉庫。這樣子建立起來的數據倉庫就是企業級倉庫,之后各個部門再從中獲取本部門需要的數據形成從屬數據集市。

投資大,周期長,需求難以確定,開發人員要求高。但有長遠價值。

2、自底向上的方法
核心思想是從企業最關鍵部門(或功能需求)開始,先以最少的投資完成當前的需求,獲得最快的回報,然后再不斷擴充和完善。這種方法最先產生的是獨立數據集市,而后從多個獨立數據集市抽取數據,形成企業級數據倉庫。

投入少,見效快。

3、混合法
上面兩種方法結合。

四、數據倉庫的存儲和管理

1、ETL
數據倉庫的真正關鍵是數據的存儲和管理。企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎、針對現有各業務系統的數據,進行抽取、清理、并有效集成,按照主題進行組織,整個過程可以簡稱為ETL(Extraction-Transformation-Loading,抽取、轉換和加載)過程。

ETL負責將分布的、異構數據源中的數據(例如,關系數據、平面數據文件等)抽取到臨時中間層后進行清洗、轉換和集成,最后加載到數據倉庫或數據集市中,成為數據分析處理(OLAP)和數據挖掘的基礎。

數據倉庫是一個獨立的數據環境,通過抽取將數據從OLTP等各種源頭導入。數據倉庫中的數據不要求與源數據庫實時同步,ETL可以定期進行。但ETL的操作時間、順序、成敗對數據倉庫的信息有效性至關重要。

2、非結構化數據
數據倉庫的數據通常來源多種多樣,面對的數據,既有結構化數據,也會有像圖片、視頻這類的非結構化數據。如何管理非結構化數據,時數據倉庫應用的一個重要問題。

數據倉庫采用元數據來管理非結構化數據。元數據記錄數據的文件標識符、索引字、處理日期等信息,憑元數據能找到源文件;而且元數據包含的信息很多,甚至不用看源文件,只看元數據就行。非結構化數據對分析與決策同樣有重要意義,但存儲成本高,數據倉庫不一定要保存這些數據,只要能找到它們就行;即使存儲一部分,也可以根據情況變化而清除。

五、數據的分析處理

數據處理大致可以分為OLTP和OLAP。OLTP是傳統數據庫的應用,我們開發的應用程序大部分都使用該模式使用數據庫。

OLAP(聯機分析處理)是數據倉庫的主要應用。支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。


在OLTP中,數據以二維表的形式進行組織,但在OLAP中,數據是多維的。

六、數據挖掘

將信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數據倉庫的根本任務。

數據挖掘采用各種科學方法,從大量數據中挖掘出隱含的、先前未知的規律和信息,可用于建立決策模型,為各領域提供預測性決策支持。

1、概述
1)體系結構


2)數據挖掘流程
(1)問題定義
熟悉背景知識,弄清用戶需求,對目標有清晰明確的定義,搞清楚到底想干什么。

(2)建立數據挖掘庫
收集要挖掘的數據資源,收集到一個數據庫中,一般不直接使用原數據庫或者數據倉庫。一方面挖掘過程中可能要修改數據,另一方面是統計分析比較復雜,數據倉庫不一定支持相關的數據結構。

好理解,拷貝數據出去以后,隨便挖,隨便折騰。

(3)分析數據
找規律和趨勢

(4)調整數據
經過上面步驟之后,對數據狀態和趨勢有了進一步了解,為進一步明確和量化,需要對數據有針對性的增刪。

(5)模型化
建立知識模型。這是數據挖掘的核心環節。

(6)評價和解釋
對得到的模型進行檢驗。既可以拿挖掘庫中的數據來檢驗,也可以取新數據進行檢驗。

2、常用技術與方法
1)挖掘技術
神經網絡,決策樹等等

2)分析技術
(1)關聯分析
用于發現不同事件之間的關聯性

(2)序列分析
用于發現一定時間間隔內接連發生的事件,這些事件構成的序列是否具有普遍意義。

(3)分類分析
對未知類別的樣本進行分類。

(4)聚類分析
根據物以類聚的原理,將本身沒有類別的樣本聚集成不同的組。

(5)預測方法
根據樣本的已知特征,預測其連續取值過程。

(6)時間序列分析
預測發展趨勢。

3、應用
很多,如
空間數據挖掘、多媒體數據挖掘、文本數據挖掘。數據挖掘最典型的故事,應該是啤酒和紙尿片。

總結

以上是生活随笔為你收集整理的数据仓库及数据挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。