数据仓库与数据挖掘课后思考题整理
數據倉庫與數據挖掘課后思考題整理
文章目錄
- 數據倉庫與數據挖掘課后思考題整理
- 1 數據倉庫概述
- 思考題
- 2 數據倉庫及其設計
- 思考題
- 實踐題
- 3 OLAP技術
- 思考題
- 課后書面作業
- 4 數據挖掘概述
- 思考題
- 5 關聯分析
- 思考題
- 實踐題
- 7 分類方法
- 思考題
- 實踐題
- 8 回歸和時序分析
- 思考題
- 實踐
- 10 聚類方法
- 思考題
1 數據倉庫概述
思考題
- 簡述數據倉庫有哪些主要的特征。
- ① 面向主題 ② 集成 ③ 穩定性即非易失的 ④ 隨時間變化而隨時變化的
- 面向主題
-
主題是指用戶使用數據倉庫進行決策時所關心的重點領域,也就是在一個較高的管理層次上對信息系統的數據按照某一具體的管理對象進行綜合、歸類所形成的分析對象。
-
從數據組織的角度來看,主題是一些數據集合。
-
面向主題組織的數據特點:
- 各個主題有完整、一致的內容以便在此基礎上作分析處理。
- 主題之間有重迭的內容,反映主題間的聯系。重迭是邏輯上的,不是物理上的。
- 各主題的綜合方式存在不同。
- 主題域應該具有獨立性(數據是否屬于該主題有明確的界限)和完備性(對該主題進行分析所涉及的內容均要在主題域內)。
- 集成
- 數據倉庫中存儲的數據一般從企業原來已建立的數據庫系統中提取出來,但并不是原有數據的簡單拷貝,而是經過了抽取、篩選、清理、轉換、綜合等工作。
- 穩定性即非易失的
- 操作型數據庫系統中一般只存儲短期數據,因此其數據是不穩定的,它記錄的是系統中數據變化的瞬態。
- 數據倉庫中的數據大多表示過去某一時刻的數據,主要用于查詢、分析,不像業務系統中的數據庫那樣,要經常進行修改、添加,除非數據倉庫中的數據是錯誤的。
- 隨時間而變化即時變的
-
數據倉庫大多關注的是歷史數據,其中數據是批量載入的,即定期從操作型應用系統中接收新的數據內容,這使得數據倉庫中的數據總是擁有時間維度。
-
數據倉庫的穩定性和時變性并不矛盾,從大時間段來看,它是時變的,但從小時間段來看,它是穩定的。
- 簡述數據倉庫與傳統數據庫的主要區別。*
- 傳統的數據庫技術是以單一的數據資源,即數據庫為中心,進行聯機事務處理(OnLine Transaction Processing,OLTP)、批處理、決策分析等各種數據處理工作,主要的劃分為兩大類:操作型處理(事務處理)和分析型處理(或信息型處理)。
- 操作型數據和分析型數據的區別 :
| 細節的 | 綜合的 |
| 存取瞬間 | 歷史數據 |
| 可更新 | 不可更新 |
| 事先可知操作需求 | 操作需求事先不可知 |
| 符合軟件開發生命周期 | 完全不同的生命周期 |
| 對性能的要求較高 | 對性能的要求較為寬松 |
| 某一時刻操作一個單元 | 某一時刻操作一個集合 |
| 事務驅動 | 分析驅動 |
| 面向應用 | 面向分析 |
| 一個操作的數據量較小 | 一次操作的數據量較大 |
| 支持日常操作 | 支持管理需求 |
- 為什么需要分離的數據倉庫。*
- 提高兩個系統的性能。
- 數據倉庫的查詢通常是復雜的,涉及大量數據在匯總級的計算,可能需要特殊的數據組織、存取方法和基于多維視圖的實現方法。對數據記錄進行只讀訪問,以進行匯總和聚集。
- 如果OLTP和OLAP都在操作型數據庫上運行,會大大降低數據庫系統的吞吐量。
- 數據倉庫與操作型數據庫分離是由于這兩種系統中數據的結構、內容和用法都不相同。
- 簡述數據倉庫的體系結構。
-
數據倉庫系統的體系結構:
-
數據倉庫系統的組成**(數據倉庫系統通常指一個數據庫環境,而不是指一件產品。)
- 數據倉庫
- 是整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。相對于操作型數據庫來說其突出的特點是對海量數據的支持和快速的檢索技術。
- 抽取工具
- 把數據從各種各樣的存儲環境中提取出來,進行必要的轉化、整理,再存放到數據倉庫內。
- 其功能包括:刪除對決策應用沒有意義的數據,轉換到統一的數據名稱和定義,計算統計和衍生數據,填補缺失數據,統一不同的數據定義方式。
- 元數據
-
是關于數據的數據,在數據倉庫中元數據位于數據倉庫的上層,是描述數據倉庫內數據的結構、位置和建立方法的數據。
-
通過元數據進行數據倉庫的管理和通過元數據來使用數據倉庫。
- 數據集市
- **數據集市(Data Mart)**是在構建數據倉庫的時候經常用到的一個詞匯。
- 數據集市面向企業中的某個部門(或某個主題)是從數據倉庫中劃分出來的,這種劃分可以是邏輯上的,也可以是物理上的。
- 數據倉庫中存放了企業的整體信息,而數據集市只存放了某個主題需要的信息,其目的是減少數據處理量,使信息的利用更加快捷和靈活。
- OLAP服務
- 聯機分析處理(OnLine Analytical Processing,OLAP)服務指的是對存儲在數據倉庫中的數據提供分析的一種軟件,它能快速提供復雜數據查詢和聚集,并幫助用戶分析多維數據中的各維情況。
- 數據報表、數據分析和數據挖掘
- 為用戶產生的各種數據分析和匯總報表,以及數據挖掘結果。
- 簡述商務智能與數據倉庫的關系。
- 商務智能簡稱為BI(Business Intelligence),也稱為商業智能。
- 商務智能是融合了先進信息技術與創新管理理念的結合體,對與企業有關的所有內部和外部的數據進行收集、匯總、過濾、分析、傳遞、綜合利用,使得數據轉換成為信息和知識的過程。商務智能可以整合歷史數據,從多個角度和層面對數據展開深層次的分析、處理,為決策者提供相應的決策依據,提高決策效率和水平。
- 一般來說,上面所描述的是一個廣義上的商務智能概念,在這個概念層面上,數據倉庫是其中非常重要的組成部分,數據倉庫從概念上更多地側重在對企業各類信息的整合和存儲工作,包括了數據的遷移,數據的組織和存儲,數據的管理與維護,這些稱之為后臺基礎性的數據準備工作。
- 與之對應,狹義的商務智能概念則側重在數據查詢和報告、多維/聯機數據分析、數據挖掘和數據可視化工具這些平常稱之為前臺的數據分析應用方面,其中數據挖掘是商務智能中比較高層次的一種應用。
-
下列關于數據倉庫的敘述中,哪些是錯誤的。
-
數據倉庫通常采用三層體系結構。
- 正確
- 區分數據倉庫與數據倉庫系統!整個數據倉庫系統包含四層結構!
-
底層的數據倉庫服務器一般是一個關系型數據庫系統。
- 正確
-
數據倉庫中間層OLAP服務器只能采用關系型OLAP。
- 錯誤
- 數據倉庫中間層OLAP服務器可以是關系型OLAP也可以是多維OLAP服務器。
-
數據倉庫前端分析工具中包括報表工具。
- 正確
-
數據倉庫是隨時間變化的,以下敘述那些是錯誤的。
-
數據倉庫隨時間變化不斷增加新的數據內容。
- 正確
-
捕捉到的新數據會覆蓋原來的快照。
- ???
-
數據倉庫隨時間變化不斷刪去舊的數據內容。
- 錯誤
- 刪除超過期限(如5~10年)的數據,因此數據倉庫中的數據也具有時變性,只是時變周期遠大于應用數據庫。
-
數據倉庫中包含大量的綜合數據,這些綜合數據會隨著時間變化不斷地進行重新綜合。
- 正確
-
某超市建立了一個交易系統,可以統計每天、每周的銷售量和銷售額,他說這就是一個數據倉庫,這個說法正確嗎?為什么?
- 并不是數據倉庫
- 這是一個操作性應用系統,其數據是隨時變化的,定期的向相關數據倉庫提供批量新的數據;且其并不穩定;且這個系統是所有數據的記錄,并不滿足數據倉庫的集成特征。
2 數據倉庫及其設計
思考題
- 試述常用的數據倉庫構建模式。
- 先整體再局部的構建模式
-
先創建企業數據倉庫,再從數據倉庫中分離部門業務的數據集市。
-
優點:
數據規范化程度高,最小化數據冗余與不一致性;便于全局數據的分析和挖掘。
-
缺點:
建設周期長、見效慢;風險程度相對大。 -
這種構建模式通常在技術成熟、業務過程理解透徹的情況下使用
- 先局部再整體的構建模式
- 先將企業各部門的決策子目標建立各自的數據集市,逐步擴充形成數據倉庫,實現對企業級決策的支持。
- 優點:
投資少、見效快;在設計上相對靈活;易于實現。 - 缺點:
數據需逐步清洗,信息需進一步提煉,如果數據在抽取時有一定的重復工作,還會有一定級別的冗余和不一致性。
- 簡述數據設計步驟。
- 數據倉庫系統開發是一個經過不斷循環、反饋而使系統不斷增長與完善的過程。在數據倉庫的開發過程中,自始自終要求決策人員和開發者的共同參與和密切協作。步驟如下:
- 如何進行數據倉庫的需求分析。
- 主題分析:主題是用戶提出分析決策的目標和需求。
- 主題、指標,維度,粒度
- 數據分析:數據倉庫系統以數據為核心
-
數據源分析
-
數據數量分析
-
數據質量分析
- 環境要求分析:滿足要求的系統平臺和環境
- 設備、網絡、數據、接口、軟件
- 什么是數據倉庫建模,其主要工作有哪些?
- 數據倉庫建模是指設計數據倉庫的邏輯模型。
- 數據倉庫建模的主要工作
- 在需求分析上,確定系統所包含的主題域并加以描述
- 確定事實表的粒度
- 確定數據分割策略
- 構建數據倉庫中各主題的多維數據模型及其聯系
- 在需求分析上,確定系統所包含的主題域并加以描述
- 主題選取的原則是優先實施管理者目前最迫切需求、最關心的主題。主題內容的描述包括主題的公共鍵、主題之間的聯系和各主題的屬性。
- 確定事實表的粒度
- 事實表的粒度能夠表達數據的詳細程度。從用途的不同來說,事實表可以分為以下三類:
- 原子事實表:是保存最細粒度數據的事實表,也是數據倉庫中保存原子信息的場所。
- 聚集事實表:是原子事實表上的匯總數據,也稱為匯總事實表。
- 合并事實表:是指將位于不同事實表中處于相同粒度的事實進行組合建模而成的一種事實表。
- 確定事實表粒度的主要作用:
- 可以確定維度是否與該事實表相關。維度和事實表應在同一粒度上。
- 在定義好事實表的粒度后,能更清楚地確定哪個事實與該事實表相關。
- 確定數據分割策略
- **分割是指把邏輯上是統一整體的數據分割成較小的、可以獨立管理的物理單元進行存儲,**以便能分別處理,從而提高數據處理的效率。
- 分割可以按時間、地區、業務類型等多種標準來進行,也可以按自定義標準,分割之后小單元的數據相對獨立,處理起來更快更容易。但在多數情況下,數據分割采用的標準不是單一的,而是多個標準的組合。一般要考慮以下幾方面的因素:
- 數據量大小
- 數據分析處理的實際情況
- 簡單易行
- 與粒度的劃分策略相統一
- 數據的穩定性。
- 構建數據倉庫中各主題的多維數據模型及其聯系
- 由于數據倉庫目前大多是使用關系數據庫來實現的,所以本章主要討論基于關系數據庫的數據倉庫建模方法。
- 星形模式
- 雪花模式
- 事實星座模式
- 實現多維數據模型的方式有哪些。
- 如何構建星形模式。
- 維表設計
-
維表用于存放維信息,包括維的屬性(列)和維的層次結構。一個維用一個維表表示。維表通常具有以下數據特征。
- 維表通常使用解析過的時間、名字或地址元素,這樣可以使查詢更靈活。例如時間可分為年份、季度、月份和日期等,地址可用地理區域來區分,如國家、省、市、縣等。
- 維表通常不使用業務數據庫的關鍵字作為主鍵,而是對每個維表另外增加一一個額外的字段作為主鍵來識別維表中的對象。在維表中新設定的鍵也稱為代理鍵。
- 維表中可以包含隨時間變化的字段,當數據集市或數據倉庫的數據隨時間變化而有額外增加或改變時,維表的數據行應有標識此變化的字段。
- 維表中維的類型包括結構維、信息維、分區維、分類維、退化維、- -致維和父子維多種類型。
- 概念分層
- 維表中維一般包含著層次關系, 也稱為概念分層,如在時間維上,按照“年份一季度一月份”形成了一個層次,其中年份、季度、月份成為這個層次的三個級別。
- 事實表設計
- 事實表主鍵的每個元素都是維表的外鍵。通過事實表將各種不同的維表連接起來,各個維表都連接到中央事實表。維表中的對象通過事實表與另一個維表中的對象相關聯,這樣就能建立各個維表對象之間的聯系。
- 試比較星形模式、雪花模式、事實星座模式的區分與聯系。
- 星形模式是最基本的模式,一個星形模式有多個維表,但只有一個事實表,對維表進行規范化,構建多層維表,就成為雪花模式。如果有多個事實表,且共享多個維表就是事實星座模式。
實踐題
-
有一個學生成績管理系統,其中含有學生的學號、姓名、性別、籍貫、課程和分數等信息,現在要構建一個數據倉庫,其主題是學生成績。根據你的設計,回答下列問題。
-
給出該數據倉庫中事實表的結構。
-
給出該數據倉庫中所有維表的結構。
-
畫出該數據倉庫的模型,分析它屬于哪種模式。
3 OLAP技術
思考題
- OLAP的概念及特點。
-
什么是OLAP
- OLAP(OnLine Analytical Processing, 聯機分析處理),1993年由E.F.Codd提出,是針對某個特定的主題進行聯機數據訪問、處理和分析,通過直觀的方式從多個維度、多種數據綜合程度將系統的運營情況展現給使用者。
- OLAP委員會給予OLAP的定義為,OLAP是使分析人員、管理人員或執行人員**(知識工人)**能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。
-
OLAP技術的特性
- **多維性:**使用OLAP技術,可以從多個角度觀察數據,從不同的主題分析數據,最終直觀地得到有效的信息。
- **可理解性:**處理業務邏輯和統計分析,同時對目標用戶而言足夠簡單。
- 交互性: OLAP幫助用戶個性化的分析數據。
- **快速性:**反應速度。
- 簡述OLAP與數據倉庫的關系。
- 建立數據倉庫的目的是為了支持管理中的決策制定過程,OLAP服務作為一種多維查詢和分析工具,是數據倉庫功能的自然擴展,也是數據倉庫中的大容量數據得以有效利用的重要保障。
- 在數據倉庫中,OLAP和數據倉庫是密不可分的,但是兩者具有不同的概念。
- 數據倉庫是一個包含企業歷史數據的大規模數據庫,這些歷史數據主要用于對企業的經營決策提供分析和支持。
- OLAP技術則利用數據倉庫中的數據進行聯機分析,OLAP利用多維數據集和數據聚集技術對數據倉庫中的數據進行組織和匯總,用聯機分析和可視化工具對這些數據進行評價,將復雜的分析查找結果快速地返回用戶。
- OLAP技術與數據倉庫的結合可以較好地解決傳統決策支持系統既要處理大量數據,又需要進行大量數據計算的問題,進而滿足決策支持或多維環境特定的查詢和報表需求。
- 簡述OLAP的體系結構與分類。
- 主流的OLAP數據組織方式有3種:
-
基于關系型數據庫ROLAP(Relational OLAP)
-
基于多維數據庫MOLAP(Multidimensional OLAP)
-
基于關系型數據庫和多維數據庫的混合方式HOLAP(Hybrid OLAP)
- ROLAP(Relational OLAP)表示基于的數據存儲在傳統的關系型數據庫中。
- 每個ROLAP分析模型基于關系型數據庫中一些相關的表,這些相關的表中有反映觀察角度的維度表和含有度量的事實表。
- 這些表在關系型數據庫中通過外鍵相互關聯,典型的組織模型有星形模式、雪花模式和事實星座模式。
- MOLAP(Multidimensional OLAP)表示基于的數據存儲在多維數據庫中。多維數據庫有時也稱數據立方體。
- 多維數據庫可以用多維數組表示。例如,一個包含有時間維、地區維、品牌維和銷售量的數據集通過多維數組可表示成:(時間維、地區維、品牌維、銷售量)
- 通過這種方式表示數據可以極大提高查詢的性能。
- HOLAP(Hybrid OLAP)表示基于的數據存儲是混合模式的。ROLAP和MOLAP兩種方式各有利弊,為了同時兼顧它們的優點,提出一種HOLAP將數據存儲混合。
- 通常將粒度較大的高層數據存儲在多維數據庫中,粒度較小的細節層數據存儲在關系型數據庫中。
- 這種HOLAP具有更好的靈活性。
- 簡述OLAP的基本操作。
- OLAP的基本分析操作主要包括對多維數據進行切片、切塊、旋轉、上卷和下鉆等,這些分析操作使得用戶可以從多角度、多側面觀察數據。
- 在多維數據集的某一維上選定一個維成員的操作稱為切片。
- 選定多維數據集的一個三維子集的方法稱為切塊。
- **旋轉(又稱轉軸,Pivot)**是一種視圖操作,即改變一個報告或頁面顯示的維方向,可以得到不同視角的數據,即轉動數據的視角以提供數據的替代表示。
- 上卷操作通過維的概念分層向上攀升或者通過維歸約(即將4個季度的值加到一起為一年的結果)在數據立方體上進行聚集。
- 下鉆是上卷的逆操作,它由不太詳細的數據到更詳細的數據。
- 什么是物化,有哪些方法?
- 所謂物化就是預計算并存儲數據立方體的方體。物化方法有不物化、全物化和部分物化。
- 不物化方法
- 不預計算任何“非基本”方體。這可能導致回答查詢時,因進行昂貴的多維聚集計算,速度非常慢。
- 全物化方法
- 物化是指對維集合的所有****可能組合都進行聚集。
- 最為簡單的全物化方法是通過計算n維事實表中的數據,依次得到2n個聚集方體,這可能產生維災難。
- 部分物化方法
- 部分物化是指在部分維及其相關層次上進行聚集,即從數據立方體的所有方體中選擇一個子集進行物化。在一般情況下,通常20%的聚集就能夠滿足80%的查詢需要。如何確定該20%的聚集是提高聚集效率的關鍵。部分物化是存儲空間和響應時間二者之間的很好折中。
課后書面作業
- 假設數據倉庫包含3個維: time (時間)、doctor (醫生)和patient (病人),兩個度量為count(診治次數)和charge (一次診治的收費金額)。由基本方體(day,doctor,patient)開始,列出2013 年每位醫生的收費總額,應當執行哪些OLAP基本操作?
- 看作業
-
假設University數據倉庫包含student (學生)、course (課程)和teacher (教程) 3個維,度量為avg_ grade。在最低的概念層(如對于給定的學生、課程和教師的組合),度量avg. grade存放學生的實際成績,在較高概念層,avg_ grade 存放學生的給定組合的平均成績。回答以下問題。
-
假設University數據倉庫中,student 維的概念分層為:學生<年級<專業<學院<All; course維的概念分層為:課程<課程類別<專業<學院<All; teacher 維的概念分層為:教師<職稱<學院<All。給出該數據倉庫的星形模式圖,根據要求設計數據倉庫的事實表和維表的結構。
-
在University數據倉庫中,數據立方體包含多少個方體( 包括基本方體和頂點方體) ?
- 看作業
4 數據挖掘概述
思考題
- 簡述數據挖掘的定義、知識表示與任務。
- 定義
- 從技術角度看,**數據挖掘(Data Mining,簡稱DM)**是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數據中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識的過程。
- 從商業應用角度看,數據挖掘是一種嶄新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉化、分析和模式化處理,從中提取輔助商業決策的關鍵知識。
- 知識表達
- 規則
- 規則知識由前提條件和結論兩部分組成,前提條件由字段(或屬性)的取值的合取(與,AND,∧)析取(或,OR,∨)組合而成,結論為決策字段(或屬性)的取值或者類別組成。
- 如:if A=a ∧ B=b then C=c,或者A(a) AND B(b) → C?。
- 決策樹
- 決策樹采用樹的形式表示知識,葉子結點表示結論屬性的類別,非葉子結點表示條件屬性,每個非葉子結點引出若干條分支線,表示該條件屬性的各種取值。
- 一棵決策樹可以轉換成若干條規則。
- 知識基
- 通過數據挖掘原表中的冗余屬性和冗余記錄,得到對應的濃縮數據,稱為知識基。它是原表的精華,很容易轉換成規則知識。
- 網絡權值
- 神經網絡方法得到的知識是一個網絡結構和各邊的權值,這組網絡權值表示對應的知識。
- 主要任務
-
在缺乏強有力的數據分析工具的情況下,歷史數據變成了“數據墳墓”。也就是說極有價值的信息被“淹沒”在海量數據堆中。
-
數據挖掘的兩個高級目標是預測和描述。
- 預測是指用一些變量或數據庫的若干已知字段預測其他感興趣的變量或字段的未知或未來的值。
- 描述是找到描述數據的可理解模式。
- 根據發現知識的不同,可以將數據挖掘的任務歸納為以下幾類:
- 關聯分析:關聯是某種事物發生時其他事物會發生的這樣一種聯系。例如每天購買啤酒的人也有可能購買尿布,比重有多大,可以通過關聯的支持度和置信度來描述。關聯分析的目的是挖掘隱藏在數據間的滿足一定條件的關聯關系,如:
buy(computer)→buy(software)
關聯規則表示顧客購買計算機和軟件之間的關聯關系。
-
**時序分析:**與關聯分析不同,時序分析產生的時序序列是一種與時間相關的縱向聯系。例如今天銀行調整利率,明天股市的變化。
-
**分類:**按照分析對象的屬性、特征,建立不同的組類來描述事物。例如銀行部門根據以前的數據將客戶分成了不同的類別,現在就可以根據這些來區分新申請貸款的客戶,以采取相應的貸款方案。
-
**聚類:**識別出分析對內在的規則,按照這些規則把對象分成若干類。例如將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。
-
**預測:**把握分析對象發展的規律,對未來的趨勢做出預見。例如對未來經濟發展的判斷。
數據挖掘的各項任務不是獨立存在的,在數據挖掘中互相聯系,發揮作用。
- 簡述數據數據挖掘與數據倉庫及OLAP的關系。
- 相同點
- 數據挖掘與OLAP都是數據分析工具。
- 不同點
- 數據挖掘是挖掘型的,建立在各種數據源的基礎上,重在發現隱藏在數據深層次的對人們有用的模式,并做出有效的預測性分析。
- OLAP是驗證型的,OLAP更多地依靠用戶輸入問題和假設,建立在多維數據的基礎之上 。
- 數據挖掘和OLAP具有一定的互補性。
- 簡述數據挖掘系統的結構。
- 實現用戶與系統交互得到用戶滿意的模式核心,提供挖掘模塊提供所需的目標數據集數據的信息源。
- 簡述數據挖掘的基本過程。
- ???
- 簡述有哪些數據挖掘系統與數據源系統的集成方案。
- **不耦合:**是指系統不利用數據源系統的任何功能;
- **松散耦合:**是指利用數據源系統的某些功能。
- **半緊密耦合:**是指將數據挖掘系統連接到數據源系統,在數據源系統中實現并存儲一些基本數據挖掘計算和中間結果;
- **緊密耦合:**是指數據挖掘系統平滑地集成到數據源系統,數據挖掘系統作為數據源系統的一個功能組件,數據挖掘任務根據數據源系統的功能進行優化與實現。
- 不耦合是一種糟糕的設計,松散耦合比不耦合好,半緊密耦合是一種折中方案,和緊密耦合是常見的兩種系統的集成方案。
- 簡述有哪些數據清理方法。
- 處理空缺值、消除噪聲數據、消除不一致
- 簡述有哪些數據集成方法。
- 數據集成是將多個數據源中的數據整合到一個一致的數據存儲(如數據倉庫)中,由于數據源的多樣性,這就需要解決可能出現的各種集成問題。
- 數據模式集成
- 通過整合不同數據源中的元數據來實施數據模式的集成。特別需要解決各數據源中屬性等命名不一致的問題。
- 檢測并解決數據值的沖突
- 對現實世界中的同一實體,來自不同數據源的屬性值可能是不同的。可能的原因有不同的數據表示、不同的度量等。例如學生成績,有的用100制,有的用5等制,這都需要糾正并統一。
- 處理數據集成中的冗余數據
- 集成多個數據源時,經常會出現冗余數據,常見的有屬性冗余,如果一個屬性可以由其它屬性導出,則它是冗余屬性,例如“年薪”可以由月薪計算出來。
- 簡述有哪些數據變換方法。
-
數據變換的作用就是將數據轉換為易于進行數據挖掘的數據存儲形式。
-
最常見的數據變換方法是**規格化,**即將屬性數據按比例縮放,使之落入一個小的特定區間。
- 簡述數據概化策略與算法。
- 數據概化也稱為數據泛化,就是將數據源中的跟任務相關的數據集從較低的概念層抽象到較高的概念層的過程。
- 數據概化的一個基本方法是面向屬性的歸納,根據屬性的概念分層,通過閾值控制,將屬性的低層屬性值用相應高層概念替換,合并后得到原數據集的記錄歸約結果。類似于數據立方體在記錄個數聚集函數上的上卷操作。
- 簡述有哪些數據離散化技術。
- 分箱、直方圖分析、聚類分析
- 分箱
- 分箱是一種基于箱的指定個數自頂向下的分裂技術,也可以用于記錄歸約和概念分層產生的離散化方法。
例如,通過使用等寬或等頻(等深)分箱,然后用箱均值或中位數替換箱中的每個值,可以將屬性值離散化,就像分別用箱的均值或箱的中位數平滑一樣。它是一種非監督的離散化技術,對用戶指定的箱個數很敏感。
- 直方圖分析
- 像分箱一樣,直方圖分析也是一種非監督離散化技術。直方圖將一個屬性的值劃分成不相交的區間,稱作桶。
例如,在等寬直方圖中,將值分成相等的劃分或區間,在等深直方圖中,值被劃分成其中每一部分包含相同個數的樣本。每個桶有一個標記,用它替代落在該桶中的屬性值,從而達到屬性值離散化的目的。
- 聚類分析
- 聚類分析是一種流行的數據離散化方法。通過聚類算法將屬性的值劃分成簇或組,每個簇或組有一個標記,用它替代該簇或組中的屬性值。
- 簡述離散屬性概念分層的自動生成算法。
- **對于離散屬性,如果概念分層的任何層次上的結點(或屬性值)個數少于比它低的每一層上的結點數,**可以利用以下算法自動生成隱含在該屬性上的概念分層。
**輸入:**離散屬性集S={A1,A2,…,Am}和對應的數據集R。
**輸出:**概念分層B1,B2,…,Bm。
**方法:**方法描述如下。
- 簡述大數據的特點。
- 大數據的5V特征
- 數量大(Volume)、類型多(Variety)、速度快(Velocity)、真實性(Veracity) 、大價值(Value)
5 關聯分析
思考題
- 簡述什么是購物籃問題。
- 設I是全部商品集合,D是所有顧客的購物清單,每個元組即事務是一次購買商品的集合。
- 購物籃問題是關聯分析的一個典型例子,每種商品有一個布爾變量,顧客購買某商品,對應的布爾變量為true,否則為false,可以將一個事務看成是一個購物籃,購物籃可用一個為這些變量指定值的布爾向量表示。
- 試述關聯規則及其度量。
- 關聯規則表示項之間的關系,它是形如X→Y的蘊涵表達式,其中X和Y是不相交的項集,即X∩Y=Ф,X稱為規則的前件,Y稱為規則的后件。
- 支持度
- 置信度
- 試述頻繁項集及頻繁k項集。
- 給定全局項集I和事務數據庫D,對于I的非空子集I1,若其支持度大于或等于min_sup,則稱I1為頻繁項集(Frequent Itemsets)。
- 對于I的非空子集I1,若某項集I1中包含有I中的k個項,稱I1為k-項集。
- 試述Apriori性質。
- 若A是一個頻繁項集,則A的每一個子集都是一個頻繁項集。
- 試述改進的Apriori算法。
- 采用自連接和剪枝操作得到改進的Apriori算法如下:
- 輸入:事務數據庫D,最小支持度閾值min_sup。
- 輸出:所有的頻繁項集集合L。
- 方法:其過程描述如下:
- 試述產生關聯規則的算法。
-
**輸入:**Apriori算法的各項集的支持度計數,頻繁項集集合L,最小置信度閾值min_conf
-
**輸出:**所有強關聯規則的后件項集R。
-
**方法:**其過程描述如下:
實踐題
- 有一個事務集合如表5.12所示,設最小支持度計數為3,采用Apriori算法求出所有的3-頻繁項集集合L3。
7 分類方法
思考題
- 機器學習通常分為有監督學習和無監督學習,有監督學習通常又叫做分類,無監督學習又叫做聚類。
- 分類過程分為兩個階段:學習階段和分類階段。學習階段又分為訓練和測試兩部分。
- 分類的定義?分類算法可以根據哪些標準進行比較和評估?
- 評估分類模型準確率有哪些方法?
- 試述k-最鄰近分類算法的思路、定義、過程及算法描述,其適用范圍,不足及需要解決的主要問題。
- 信息增益如何計算?試述ID3算法。ID3算法的優點和缺點?如何由決策樹提取分類規則?
- C4.5對ID3是如何改進的?它是如何實現的?試述C4.5算法。
- 試述貝葉斯定理。給定相關概率如何計算后驗概率。
- 試述貝葉斯網絡的主要成分及其聯合概率計算方法。
- 試述樸素貝葉斯分類的假定及其原理,分類算法,其對應的貝葉斯網絡結構,以及如何針對實際數據集進行應用?
- 試述人工神經元及其工作過程,激活函數有什么作用?S型函數的定義及性質。
- 試述人工神經網絡的要素?試述前饋神經網絡的學習過程。試述前饋神經網絡用于分類的流程及對應的算法。
- 支持向量機的基本原理及其優缺點。如何得到線性分類器的分類間隔,支持向量的含義。松馳變量和懲罰因子的作用是什么?
實踐題
- 全?實踐.…
8 回歸和時序分析
思考題
- 什么是回歸分析?
- 回歸分析(Regression Analysis)是確定兩個或多個變量之間相互依賴的定量關系的一種統計分析方法,分為線性回歸、非線性回歸和邏輯回歸等。回歸分析和前一章介紹的分類方法都可以用于預測,與分類方法不同的是,通常分類輸出是離散類別值,而回歸的輸出是連續值。
- 什么是邏輯回歸?
- 邏輯回歸用于分析二分類或有次序的依變量和自變量之間的關系。
- 當依變量是二分類(如1或0)時,稱之為二分邏輯回歸,自變量X1、X2、…、Xk可以是分類變量或連續變量等。
- 邏輯回歸在流行病學中應用較多,常用于探索某種疾病的危險因素,根據危險因素預測某種疾病發生的概率。所以邏輯回歸是以概率分析為基礎的。
- 試述回歸與分類的關系。
- 回歸分析與分類方法不同的是,通常分類輸出是離散類別值,而回歸的輸出是連續值。
- 試述回歸分析與時序分析的關系。
- 時序分析和回歸分析兩者存在著內在的統一性。
- 事實上,正是用時間變量t代替了許許多多影響事物長期趨勢的基本因素,可以把各種影響因素統一在一個回歸模型中。
實踐
- 一樣全?實踐…
10 聚類方法
思考題
- 什么是聚類。
- **聚類(clustering)**是將數據對象的集合分成相似的對象類的過程。使得同一個簇(或類,cluster)中的對象之間具有較高的相似性,而不同簇中的對象具有較高的相異性。
- 試述聚類過程。
- 數據準備:為聚類分析準備數據,包括數據的預處理;
- 屬性選擇:選擇最有效的屬性用于聚類分析;
- 屬性提取:對所選屬性進行轉換形成更有代表性的屬性;
- 聚類:采用某種聚類算法對數據進行聚類;
- 結果評估:對聚類生成的結果進行評價。
- 試述K-均值算法的過程、算法描述及其特點。
- 過程
-
首先輸入k的值,即希望將數據集D={o1,o2,…,on}經過聚類得到k個分類或分組。
-
從數據集D中隨機選擇k個數據點作為簇質心,每個簇質心代表一個簇。這樣得到的簇質心集合為Centroid={Cp1,Cp2,…,Cpk}。
-
對D中每一個數據點oi,計算oi與Cpj(j=1,2,…,k)的距離,得到一組距離值,從中找出最小距離值對應的簇質心Cps,則將數據點oi劃分到以Cps為質心的簇中。
-
根據每個簇所包含的對象集合,重新計算得到一個新的簇質心。若|Cx|是第x個簇Cx中的對象個數,mx是這些對象的質心,即:
這里的簇質心mx是簇Cx的均值,這就是k-均值算法名稱的由來。
- 如果這樣劃分后滿足目標函數的要求,可以認為聚類已經達到期望的結果,算法終止。否則需要迭代③~⑤步驟。通常目標函數設定為所有簇中各個對象與均值間的誤差平方和(Sum of the Squared Error,簡稱SSE)小于某個閾值ε
- 算法描述
- 輸入:數據對象集合D,簇數目k,閾值ε
- 輸出:k個簇的集合
- 方法:其過程描述如下:
- 算法特點
- 優點:算法框架清晰、簡單、容易理解。
- 算法確定的k個劃分使誤差平方和最小。當聚類是密集的,且類與類之間區別明顯時,效果較好。
- 處理大數據集,這個算法是相對可伸縮的和高效的。復雜度為O(tkn),其中n 是對象的數目,k 是簇的數目,t 是迭代的次數。 通常k、t << n。
- 缺點
- 算法中k要事先給定,這個k值的選定是非常難以估計的。
- 算法對異常數據,如噪聲和離群點很敏感。
- 算法首先需要一個初始劃分,然后進行優化。這個初始聚類中心對結果有較大影響。
- 算法需要不斷對樣本進行分類調整,時間開銷較大。
- 試述二分k-均值算法。
-
二分k-均值算法是基本k-均值算法的直接擴充,它基于一種簡單的想法:為了得到k個簇,將所有點的集合分為兩個簇,從這些簇中選取一個繼續分裂,如此下去,直到產生k個簇。
-
二分k-均值算法如下:
-
輸入:數據對象集合D,簇數目k,二分次數b
-
輸出:k個簇的集合
-
方法:其過程描述如下:
- 試述k-中心點算法的過程、算法描述,并與k-均值算法進行對比。
- 過程
- 任意選擇k個對象作為k個中心點。
- 計算每個非中心點對象到每個中心點的距離。
- 把每個非中心點對象分配到距離它最近的中心點所代表的簇中。
- 隨機選擇一個非中心點對象oi,計算用oi代替某個簇Cx的中心點ox所能帶來的好處(用△E表示代替后和代替前誤差函數值之差,意思是使誤差E增加多少)。
- 若△E<0,表示代替后誤差會減少,則用oi代替ox,即將oi作為簇Cx的中心點;否則,不代替。
- 重復②~④,直到k個中心點不再發生改變。
- 描述
- 輸入:數據對象集合D,簇數目k
- 輸出:k個簇的集合
- 方法:其過程描述如下:
- 相較于K-均值算法
- 消除了k-均值算法對于孤立點的敏感性
- 比k-均值算法的代價要高
- 算法必須指定個數k,k的取值對聚類質量有重大影響
- 對小的數據集非常有效,對大數據集效率不高,特別是n和k都很大的時候。
- 聚類與分類的區別?*
- 分類和聚類是兩個容易混淆的概念,事實上它們具有顯著區別。
- 在分類中,為了建立分類模型而分析的數據對象的類別是已知的,然而,在聚類時處理的所有數據對象的類別都是未知的。
- 因此,分類是有指導的(有監督學習),是通過例子(訓練樣本集)學習的過程,而聚類是無指導的(無監督學習),是通過觀察學習的過程 。
改變。
- 描述
- 輸入:數據對象集合D,簇數目k
- 輸出:k個簇的集合
- 方法:其過程描述如下:
- 相較于K-均值算法
- 消除了k-均值算法對于孤立點的敏感性
- 比k-均值算法的代價要高
- 算法必須指定個數k,k的取值對聚類質量有重大影響
- 對小的數據集非常有效,對大數據集效率不高,特別是n和k都很大的時候。
- 聚類與分類的區別?*
- 分類和聚類是兩個容易混淆的概念,事實上它們具有顯著區別。
- 在分類中,為了建立分類模型而分析的數據對象的類別是已知的,然而,在聚類時處理的所有數據對象的類別都是未知的。
- 因此,分類是有指導的(有監督學習),是通過例子(訓練樣本集)學習的過程,而聚類是無指導的(無監督學習),是通過觀察學習的過程 。
總結
以上是生活随笔為你收集整理的数据仓库与数据挖掘课后思考题整理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 51单片机学习——1天学完普中基本实验例
- 下一篇: 【历史上的今天】11 月 14 日:微软