数据库基础考点笔记-3
目錄
一、反規(guī)范化——概念
1、增加冗余列
2、增加派生列
3、重新組表
4、分割表
(1)水平分割
(2)垂直分割
二、事務(wù)管理——概念
三、并發(fā)控制——概念
1、排他型封鎖(簡稱 X 封鎖)
2、共享型封鎖(簡稱 S 封鎖)
四、分布式數(shù)據(jù)庫——概念
1、分布式數(shù)據(jù)庫系統(tǒng)特點
(1)數(shù)據(jù)的分布性
(2)統(tǒng)一性
(3)透明性
2、分布式數(shù)據(jù)庫優(yōu)點
五、故障恢復(fù)——概念
1、數(shù)據(jù)庫的故障分類
(1)事務(wù)故障
(2)系統(tǒng)故障
(3)介質(zhì)故障
(4)計算機病毒
2、故障的恢復(fù)
(1)事務(wù)故障的恢復(fù)
(2)系統(tǒng)故障的恢復(fù)
(3)介質(zhì)故障與病毒破壞的恢復(fù)
(4)具有檢查點的恢復(fù)技術(shù)
六、數(shù)據(jù)庫備份——概念
1、物理備份
(1)冷備份
(2)熱備份
(3)備份方式
七、數(shù)據(jù)倉庫——概念
1、數(shù)據(jù)倉庫的結(jié)構(gòu)
(1)數(shù)據(jù)源
(2)數(shù)據(jù)的存儲與管理
(3)OLAP 服務(wù)器
(4)前端工具
2、數(shù)據(jù)倉庫的實現(xiàn)方法
(1)自頂向下法
(2)自底向上法
(3)混合法
八、數(shù)據(jù)挖掘——概念
1、數(shù)據(jù)挖掘的流程
(1)問題定義
(2)建立數(shù)據(jù)挖掘庫
(3)分析數(shù)據(jù)
(4)調(diào)整數(shù)據(jù)
(5)模型化
(6)評價和解釋
2、常用數(shù)據(jù)挖掘技術(shù)
(1)關(guān)聯(lián)分析
(2)序列分析
(3)分類分析
(4)聚類分析
(5)預(yù)測
(6)時間序列
一、反規(guī)范化——概念
常見的反規(guī)范化技術(shù)包括:
1、增加冗余列
增加冗余列是指在多個表中具有相同的列,它常用來在查詢時避免連接操作。
例如:以規(guī)范化設(shè)計的理念,學(xué)生成績表中不需要字段“姓名”,因為“姓名”字段可以通過學(xué)號查詢到,但在反規(guī)范化設(shè)計中,會將“姓名”字段加入表中。這樣查詢一個學(xué)生的成
績時,不需要與學(xué)生表進行連接操作,便可得到對應(yīng)的“姓名”。
2、增加派生列
增加派生列指增加的列可以通過表中其他數(shù)據(jù)計算生成。它的作用是在查詢時減少計算量,從而加快查詢速度。
例如:訂單表中,有商品號、商品單價、采購數(shù)量,我們需要訂單總價時,可以通過計算得到總價,所以規(guī)范化設(shè)計的理念是無須在訂單表中設(shè)計“訂單總價”字段。
但反規(guī)范化則不這樣考慮,由于訂單總價在每次查詢都需要計算,這樣會占用系統(tǒng)大量資源,所以在此表中增加派生列“訂單總價”以提高查詢效率。
3、重新組表
重新組表指如果許多用戶需要查看兩個表連接出來的結(jié)果數(shù)據(jù),則把這兩個表重新組成一個表來減少連接而提高性能。
4、分割表
有時對表做分割可以提高性能。表分割有兩種方式。
(1)水平分割
根據(jù)一列或多列數(shù)據(jù)的值把數(shù)據(jù)行放到兩個獨立的表中。
水平分割通常在下面的情況下使用。
- 情況 1:表很大,分割后可以降低在查詢時需要讀的數(shù)據(jù)和索引的頁數(shù),同時也降低了索引的層數(shù),提高查詢效率。
- 情況 2:表中的數(shù)據(jù)本來就有獨立性,例如表中分別記錄各個地區(qū)的數(shù)據(jù)或不同時期的數(shù)據(jù),特別是有些數(shù)據(jù)常用,而另外一些數(shù)據(jù)不常用。
- 情況 3:需要把數(shù)據(jù)存放到多個介質(zhì)上。
(2)垂直分割
把主碼和一些列放到一個表,然后把主碼和另外的列放到另一個表中。
如果一個表中某些列常用,而另外一些列不常用,則可以采用垂直分割,另外垂直分割可以使得數(shù)據(jù)行變小,一個數(shù)據(jù)頁就能存放更多的數(shù)據(jù),在查詢時就會減少 I/O 次數(shù)。其缺點是需要管理冗余列,查詢所有數(shù)據(jù)需要連接操作。
二、事務(wù)管理——概念
數(shù)據(jù)庫系統(tǒng)運行的基本工作單位是事務(wù),事務(wù)相當(dāng)于操作系統(tǒng)中的進程,是用戶定義的一個數(shù)據(jù)庫操作序列,這些操作序列要么全做要么全不做,是一個不可分割的工作單位。
事務(wù)通常以 BEGIN TRANSACTION(事務(wù)開始)語句開始,以COMMIT 或 ROLLBACK 語句結(jié)束。
- COMMIT 稱為“事務(wù)提交語句”,表示事務(wù)執(zhí)行成功的結(jié)束。
- ROLLBACK 稱為“事務(wù)回退語句”,表示事務(wù)執(zhí)行不成功的結(jié)束。
從終端用戶來看,事務(wù)是一個原子,是不可分割的操作序列。事務(wù)中包括的所有操作要么都做,要么都不做(就效果而言)。事務(wù)不應(yīng)該丟失或被分割地完成。
三、并發(fā)控制——概念
處理并發(fā)控制的主要方法是采用封鎖技術(shù)。它有兩種類型:排他型封鎖(X 封鎖)和共享型封鎖(S 封鎖),分別介紹如下:
1、排他型封鎖(簡稱 X 封鎖)
如果事務(wù) T 對數(shù)據(jù) A(可以是數(shù)據(jù)項、記錄、數(shù)據(jù)集,乃至整個數(shù)據(jù)庫)實現(xiàn)了 X 封鎖,那么只允許事務(wù) T 讀取和 修改數(shù)據(jù) A,其他事務(wù)要等事務(wù) T 解除 X 封鎖以后,才能對數(shù)據(jù) A 實現(xiàn)任何類型的封鎖。可見 X 封鎖只允許一個事務(wù)獨鎖某個數(shù)據(jù),具有排他性。
2、共享型封鎖(簡稱 S 封鎖)
X 封鎖只允許一個事務(wù)獨鎖和使用數(shù)據(jù),要求太嚴(yán)。需要適當(dāng)放寬,例如可以允許并發(fā)讀,但不允許修改,這就產(chǎn)生了S 封鎖概念。
S 封鎖的含義是:如果事務(wù) T 對數(shù)據(jù) A 實現(xiàn)了 S 封鎖,那么允許事務(wù) T 讀取數(shù)據(jù) A,但不能修改數(shù)據(jù) A,在所有 S 封鎖解除之前絕不允許任何事務(wù)對數(shù)據(jù) A 實現(xiàn) X 封鎖。
典型真題
若事務(wù)T1對數(shù)據(jù)D1加了共享鎖,事務(wù)T2、T3分別對數(shù)據(jù)D2、D3加了排它鎖,則事務(wù)T1 對數(shù)據(jù)( );事務(wù)T2對數(shù)據(jù)( )。
- A.D2、D3加排它鎖都成功? ? ? ?
- B.D2、D3加共享鎖都成功
- C.D2加共享鎖成功,D3加排它鎖失敗? ? ?
- D.D2、D3加排它鎖和共享鎖都失敗
——————————————————————————————————
- A.D1、D3加共享鎖都失敗? ? ? ?
- B.D1、D3加共享鎖都成功
- C.D1加共享鎖成功,D3如排它鎖失敗? ? ??
- D.D1加排它鎖成功,D3加共享鎖失敗
試題分析:
共享鎖(S鎖):又稱讀鎖,若事物T對數(shù)據(jù)對象A加上S鎖,其他事物只能再對A加S鎖,而不能加X鎖,而不能加X鎖,直到T釋放A上的S鎖
排他鎖(X鎖):又稱寫鎖。若事物T對數(shù)據(jù)對象A加上X鎖,其他事物不能再對A加任何鎖,直到T釋放A上的鎖。
參考答案: D 、C
四、分布式數(shù)據(jù)庫——概念
1、分布式數(shù)據(jù)庫系統(tǒng)特點
(1)數(shù)據(jù)的分布性
分布式數(shù)據(jù)庫中的數(shù)據(jù)分布于網(wǎng)絡(luò)中的各個結(jié)點,它既不同于傳統(tǒng)的集中式數(shù)據(jù)庫,也不同于通過計算機網(wǎng)絡(luò)共享的集中式數(shù)據(jù)庫系統(tǒng)。
(2)統(tǒng)一性
主要表現(xiàn)在數(shù)據(jù)在邏輯上的統(tǒng)一性和數(shù)據(jù)在管理上的統(tǒng)一性兩個方面。
分布式數(shù)據(jù)庫系統(tǒng)通過網(wǎng)絡(luò)技術(shù)把局部的、分散的數(shù)據(jù)庫構(gòu)成一個在邏輯上單一的數(shù)據(jù)庫,從而呈現(xiàn)在用戶面前的就如同是一個統(tǒng)一的、集中式的數(shù)據(jù)庫。這就是數(shù)據(jù)在邏輯上的統(tǒng)一性,因此,它不同于由網(wǎng)絡(luò)互聯(lián)的多個獨立數(shù)據(jù)庫。分布式數(shù)據(jù)庫是由分布式數(shù)據(jù)庫管理系統(tǒng)統(tǒng)一管理和維護的,這種管理上的統(tǒng)一性又使它不同于一般的分布式文件系統(tǒng)。
(3)透明性
用戶在使用分布式數(shù)據(jù)庫時,與使用集中式數(shù)據(jù)庫一樣,無須知道其所關(guān)心的數(shù)據(jù)存放在哪里,存儲了幾次。用戶需要關(guān)心的僅僅是整個數(shù)據(jù)庫的邏輯結(jié)構(gòu)。
分布透明性包括:分片透明性、位置透明性和局部數(shù)據(jù)模型透明性。
(1)分片透明性是分布透明性的最高層次
所謂分片透明性是指用戶或應(yīng)用程序只對全局關(guān)系進行操作而不必考慮數(shù)據(jù)的分片。
(2)位置透明性是分布透明性的下一層次
所謂位置透明性是指,用戶或應(yīng)用程序應(yīng)當(dāng)了解分片情況,但不必了解片段的存儲場地。
(3)局部數(shù)據(jù)模型(邏輯透明)
透明性是指用戶或應(yīng)用程序應(yīng)當(dāng)了解分片及各片斷存儲的場地,但不必了解局部場地上使用的是何種數(shù)據(jù)模型。
2、分布式數(shù)據(jù)庫優(yōu)點
與集中式數(shù)據(jù)庫相比,分布式數(shù)據(jù)庫具有下列優(yōu)點:
(1)堅固性好
由于分布式數(shù)據(jù)庫系統(tǒng)是由多個位置上的多臺計算機構(gòu)成的,在個別結(jié)點或個別通信鏈路發(fā)生故障的情況下,它仍然可以降低級別繼續(xù)工作,如果采用冗余技術(shù),還可以獲得一定的容錯能力。因此,系統(tǒng)的堅固性好,即系統(tǒng)的可靠性和可用性好。
(2)可擴充性好
可根據(jù)發(fā)展的需要增減結(jié)點,或?qū)ο到y(tǒng)重新配置,這比用一個更大的系統(tǒng)代替一個已有的集中式數(shù)據(jù)庫要容易得多。
(3)可改善性能
在分布式數(shù)據(jù)庫中可按就近分布,合理地冗余的原則來分布各結(jié)點上的數(shù)據(jù),構(gòu)造分布式數(shù)據(jù)庫,使大部分數(shù)據(jù)可以就近訪問,避免了集中式數(shù)據(jù)庫中的瓶頸問題,減少了系統(tǒng)的響應(yīng)時間,提高了系統(tǒng)的效率,而且也降低了通信費用。
(4)自治性好
數(shù)據(jù)可以分散管理,統(tǒng)一協(xié)調(diào),即系統(tǒng)中各結(jié)點的數(shù)據(jù)操縱和相互作用是高度自治的,不存在主從控制,因此,分布式數(shù)據(jù)庫較好地滿足了一個單位中各部門希望擁有自己的數(shù)據(jù),管理自己的數(shù)據(jù),同時又想共享其他部門有關(guān)數(shù)據(jù)的要求。
注意:
雖然分布式數(shù)據(jù)庫系統(tǒng)與集中式數(shù)據(jù)庫相比有不少優(yōu)點,但同時也需要解決一些集中式數(shù)據(jù)庫所沒有的問題。
首先,異構(gòu)數(shù)據(jù)庫的集成問題是一項比較復(fù)雜的技術(shù)問題,目前還很難用一個通用的分布式數(shù)據(jù)庫管理系統(tǒng)來解決這一問題。
其次,如果數(shù)據(jù)庫設(shè)計得不好,數(shù)據(jù)分布不合理,以致遠距離訪問過多,尤其是分布連接操作過多,不但不能改善性能,反而會使性能降低。
五、故障恢復(fù)——概念
1、數(shù)據(jù)庫的故障分類
數(shù)據(jù)庫的故障可用事務(wù)的故障來表示,主要分為四類:
(1)事務(wù)故障
事務(wù)在運行過程中由于種種原因,如輸入數(shù)據(jù)的錯誤、運算溢出、違反了某些完整性限制、某些應(yīng)用程序的錯誤,以及并發(fā)事務(wù)發(fā)生死鎖等,使事務(wù)未運行至正常終止點就被撤銷,這種情況稱為“事務(wù)故障”。
(2)系統(tǒng)故障
系統(tǒng)故障是指系統(tǒng)在運行過程中,由于某種原因(如操作系統(tǒng)或數(shù)據(jù)庫管理系統(tǒng)代碼錯誤、操作員操作失誤、特定類型的硬件錯誤(如 CPU 故障)、突然停電等造成系統(tǒng)停止運行),致使事務(wù)在執(zhí)行過程中以非正常方式終止,這時內(nèi)存中的信息丟失,但存儲在外存儲設(shè)備上的數(shù)據(jù)不會受影響。
(3)介質(zhì)故障
系統(tǒng)在運行過程中,由于某種硬件故障,如磁盤損壞、磁頭碰撞或由于操作系統(tǒng)的某種潛在的錯誤、瞬時強磁場干擾,使存儲在外存上的數(shù)據(jù)部分損失或全部損失,稱為“介質(zhì)故障”。這類故障比前兩類故障的可能性雖然小得多,但破壞性卻最大。
(4)計算機病毒
計算機病毒是一種人為破壞計算機正常工作的特殊程序。通過讀寫染有病毒的計算機系統(tǒng)中的程序與數(shù)據(jù),這些病毒可以迅速繁殖和傳播,危害計算機系統(tǒng)和數(shù)據(jù)庫。目前大多數(shù)病毒是在 PC 和其兼容機上傳播的。有的病毒一侵入系統(tǒng)就馬上摧毀系統(tǒng),有的病毒有較長的潛伏期,有的病毒則只在特定的日期發(fā)生破壞作用,有的病毒感染系統(tǒng)所有的程序和數(shù)據(jù),有的只影響特定的程序和數(shù)據(jù)。
2、故障的恢復(fù)
(1)事務(wù)故障的恢復(fù)
事務(wù)故障是指事務(wù)未運行至正常終止點前被撤銷,這時恢復(fù)子系統(tǒng)應(yīng)對此事務(wù)做撤銷處理。事務(wù)故障的恢復(fù)是由系統(tǒng)自動完成的,不需要用戶干預(yù),步驟如下:
(2)系統(tǒng)故障的恢復(fù)
系統(tǒng)故障發(fā)生時,造成數(shù)據(jù)庫不一致狀態(tài)的原因有兩個:
- 一是由于一些未完成事務(wù)對數(shù)據(jù)庫的更新已寫入數(shù)據(jù)庫;
- 二是由于一些已提交事務(wù)對數(shù)據(jù)庫的更新還留在緩沖區(qū)沒來得及寫入數(shù)據(jù)庫。
系統(tǒng)故障的恢復(fù)是在重新啟動時自動完成的,不需要用戶干預(yù),步驟如下:
(3)介質(zhì)故障與病毒破壞的恢復(fù)
在發(fā)生介質(zhì)故障和遭病毒破壞時,磁盤上的物理數(shù)據(jù)庫被破壞,這時的恢復(fù)操作可分為三步:
(4)具有檢查點的恢復(fù)技術(shù)
檢查點記錄的內(nèi)容可包括:
- 建立檢查點時刻所有正在執(zhí)行的事務(wù)清單。
- 這些事務(wù)最近一個日志記錄的地址。
采用檢查點的恢復(fù)步驟如下:
六、數(shù)據(jù)庫備份——概念
數(shù)據(jù)庫備份按照不同方式可分為多種,這里按照備份內(nèi)容分為物理備份和邏輯備份兩類。
1、物理備份
物理備份是在操作系統(tǒng)層面上對數(shù)據(jù)庫的數(shù)據(jù)文件進行備份,物理備份分為冷備份和熱備份兩種。
(1)冷備份
冷備份是將數(shù)據(jù)庫正常關(guān)閉,在停止?fàn)顟B(tài)下利用操作系統(tǒng)的 copy、cp、tar、 cpio 等命令將數(shù)據(jù)庫的文件全部備份下來,當(dāng)數(shù)據(jù)庫發(fā)生故障時,將數(shù)據(jù)文件復(fù)制回來,進行恢復(fù)。
(2)熱備份
熱備份也分為兩種,一種是不關(guān)閉數(shù)據(jù)庫,將數(shù)據(jù)庫中需要備份的數(shù)據(jù)文件依次置于備份狀態(tài),相對保持靜止,然后再利用操作系統(tǒng)的 copy、cp、tar、cpio 等命令將數(shù)據(jù)庫的文件
備份下來,備份完畢后再將數(shù)據(jù)文件恢復(fù)為正常狀態(tài),當(dāng)數(shù)據(jù)庫發(fā)生故障時,恢復(fù)方法同冷備份一樣。
熱備份的另外一種方式是利用備份軟件(例如,veritas 公司的netbackup,legato 公司的 network 等)在數(shù)據(jù)庫正常運行的狀態(tài)下,將數(shù)據(jù)庫中的數(shù)據(jù)文件備份出來。
(3)備份方式
為了提高物理備份的效率,通常將完全、增量、差異三種備份方式相組合。
完全備份是將數(shù)據(jù)庫的內(nèi)容全部備份。
不足之處在于,各個全備份磁帶中的備份數(shù)據(jù)存在大量的重復(fù)信息;另外,由于每次需要備份的數(shù)據(jù)量相當(dāng)大,因此備份所需時間較長。
增量備份是只備份上次完全、增量或差異備份以來修改的數(shù)據(jù)。
因此備份的數(shù)據(jù)量不大,備份所需的時間很短。但增量備份的數(shù)據(jù)恢復(fù)是比較麻煩的。
必須具有上一次全備份和所有增量備份磁帶(一旦丟失或損壞其中的一盤磁帶,就會造成恢復(fù)的失敗),并且它們必須沿著從全量備份到依次增量備份的時間順序逐個反推恢復(fù),因此這就極大地延長了恢復(fù)時間。
差異備份是備份自上次完全備份后發(fā)生變化的所有數(shù)據(jù)。
差異備份在避免了另外兩種備份策略缺陷的同時,又具備了它們各自的優(yōu)點。
- 首先,它具有了增量備份需要時間短、節(jié)省磁盤空間的優(yōu)勢;
- 其次,它又具有了全量備份恢復(fù)所需磁帶少、恢復(fù)時間短的特點。系統(tǒng)管理員只需要兩盤磁帶,即全備份磁帶與災(zāi)難發(fā)生前一天的差異備份磁帶,就可以將系統(tǒng)恢復(fù)。
典型真題
試題分析
增量備份在做數(shù)據(jù)備份前會先判斷數(shù)據(jù)的最后修改時間是否比上次備份的時間晚。如果不是,則表示該數(shù)據(jù)并沒有被修改過,這次不需要備份。
所以該備份方式,只記錄上次備份之后的變動情況,而非完全備份。
試題答案:A
七、數(shù)據(jù)倉庫——概念
數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
1、數(shù)據(jù)倉庫的結(jié)構(gòu)
(1)數(shù)據(jù)源
是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。
- 內(nèi)部信息包括存放于 RDBMS(關(guān)系型 DBMS)中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。
- 外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等。
(2)數(shù)據(jù)的存儲與管理
是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。
數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。
數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
(3)OLAP 服務(wù)器
對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。
其具體實現(xiàn)可以分為:ROLAP、MOLAP 和 HOLAP。
- ROLAP 基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在 RDBMS 之中;
- MOLAP 基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;
- HOLAP 基本數(shù)據(jù)存放于 RDBMS 之中,
- 聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。
(4)前端工具
主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。
其中數(shù)據(jù)分析工具主要針對 OLAP 服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。
2、數(shù)據(jù)倉庫的實現(xiàn)方法
從整體的角度來看,數(shù)據(jù)倉庫的實現(xiàn)方法主要有自頂向下法、自底向上法和聯(lián)合方法。
(1)自頂向下法
在該方法中,首先應(yīng)找出數(shù)據(jù)倉庫解決方案所要滿足的商業(yè)需求,把商業(yè)需求視為實現(xiàn)數(shù)據(jù)倉庫的首要任務(wù)。
數(shù)據(jù)倉庫是一種功能而不是一種特征,數(shù)據(jù)倉庫保存信息,并以外部工具易于顯示和操作的方式組織這些信息。因此,如果不借助于可以利用這種功能的外部工具,最終用戶就無法將這種功能嵌入數(shù)據(jù)倉庫中。這樣,就很難定出該功能的范圍,除非用廣義上的商業(yè)術(shù)語,如“數(shù)據(jù)倉庫將包含有關(guān)客戶、供應(yīng)商、市場、產(chǎn)品的信息”。
(2)自底向上法
自底向上方法一般從實驗和基于技術(shù)的原形入手。先選擇一個特定的、眾所周知的商業(yè)問題的子集,再為該子集制訂方案。
實現(xiàn)自底向上一般是比較快的。自底向上可以使一個單位在發(fā)展時用盡可能少的經(jīng)費和時間,就可以在做出有效的投入之前評估技術(shù)的收益情況。
在數(shù)據(jù)倉庫領(lǐng)域,自底向上方法是快速實現(xiàn)數(shù)據(jù)集市、部門級數(shù)據(jù)倉庫的有效手段。
(3)混合法
擁有以上兩種方法的優(yōu)點。適合數(shù)據(jù)倉庫技術(shù)的快速試運行,并且保留了建立長遠的決策方案的機會。
典型真題
試題分析
數(shù)據(jù)倉庫4大特點:
- 面向主題:數(shù)據(jù)按主題組織。
- 集成的:消除了源數(shù)據(jù)中的不一致性,提供整個企業(yè)的一致性全局信息。
- 相對穩(wěn)定的(非易失的):主要進行查詢操作,只有少量的修改和刪除操作(或是不刪除)。
- 反映歷史變化(隨著時間變化):記錄了企業(yè)從過去某一時刻到當(dāng)前各個階段的信息,可對發(fā)展歷程和未來趨勢做定量分析和預(yù)測。
試題答案:C
八、數(shù)據(jù)挖掘——概念
數(shù)據(jù)挖掘(Data Mining)技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲在計算機的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進行查詢和訪問,進而發(fā)展到對數(shù)據(jù)庫的即時遍歷。
數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進入了一個更高級的階段,它不僅能對過去的數(shù)據(jù)進行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進信息的傳遞。
現(xiàn)在數(shù)據(jù)挖掘技術(shù)在商業(yè)應(yīng)用中已經(jīng)可以馬上投入使用,因為對這種技術(shù)進行支持的三種基礎(chǔ)技術(shù)已經(jīng)發(fā)展成熟,它們是海量數(shù)據(jù)搜集、強大的多處理器計算機和數(shù)據(jù)挖掘算法。
數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。
數(shù)據(jù)挖掘所得到的信息應(yīng)具有先知,有效和可實用三個特征。
1、數(shù)據(jù)挖掘的流程
(1)問題定義
在開始數(shù)據(jù)挖掘之前,最先的也是最重要的要求就是熟悉背景知識,弄清用戶的需求。
缺少了背景知識,就不能明確定義要解決的問題,就不能為挖掘準(zhǔn)備優(yōu)質(zhì)的數(shù)據(jù),也很難正確地解釋得到的結(jié)果。要想充分發(fā)揮數(shù)據(jù)挖掘的價值,必須對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。
(2)建立數(shù)據(jù)挖掘庫
要進行數(shù)據(jù)挖掘必須收集要挖掘的數(shù)據(jù)資源。
一般建議把要挖掘的數(shù)據(jù)都收集到一個數(shù)據(jù)庫中,而不是采用原有的數(shù)據(jù)庫或數(shù)據(jù)倉庫。這是因為大部分情況下需要修改要挖掘的數(shù)據(jù),而且還會遇到采用外部數(shù)據(jù)的情況;另外,數(shù)
據(jù)挖掘還要對數(shù)據(jù)進行各種紛繁復(fù)雜的統(tǒng)計分析,而數(shù)據(jù)倉庫可能不支持這些數(shù)據(jù)結(jié)構(gòu)。
(3)分析數(shù)據(jù)
分析數(shù)據(jù)就是通常所進行的對數(shù)據(jù)深入調(diào)查的過程。
從數(shù)據(jù)集中找出規(guī)律和趨勢,用聚類分析區(qū)分類別,最終要達到的目的就是搞清楚多因素相互影響的、十分復(fù)雜的關(guān)系,發(fā)現(xiàn)因素之間的相關(guān)性。
(4)調(diào)整數(shù)據(jù)
通過上述步驟的操作,對數(shù)據(jù)的狀態(tài)和趨勢有了進一步的了解,這時要盡可能對問題解決的要求能進一步明確化、進一步量化。
針對問題的需求對數(shù)據(jù)進行增刪,按照對整個數(shù)據(jù)挖掘過程的新認識組合或生成一個新的變量,以體現(xiàn)對狀態(tài)的有效描述。
(5)模型化
在問題進一步明確,數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進一步調(diào)整的基礎(chǔ)上,就可以建立形成知識的模型。
這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié),一般運用神經(jīng)網(wǎng)絡(luò)、決策樹、數(shù)理統(tǒng)計、時間序列分析等方法來建立模型。
(6)評價和解釋
上面得到的模式模型,有可能是沒有實際意義或沒有實用價值的,也有可能是其不能準(zhǔn)確反映數(shù)據(jù)的真實意義,甚至在某些情況下是與事實相反的,因此需要評估,確定哪些是有效的、有用的模式。
評估的一種辦法是直接使用原先建立的挖掘數(shù)據(jù)庫中的數(shù)據(jù)來進行檢驗,另一種辦法是另找一批數(shù)據(jù)并對其進行檢驗,再一種辦法是在實際運行的環(huán)境中取出新鮮數(shù)據(jù)進行檢驗。
2、常用數(shù)據(jù)挖掘技術(shù)
常用的數(shù)據(jù)挖掘技術(shù)包括關(guān)聯(lián)分析、序列分析、分類、預(yù)測、聚類分析及時間序列分析等。
(1)關(guān)聯(lián)分析
關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個事件發(fā)生的同時,另一個事件也經(jīng)常發(fā)生。
關(guān)聯(lián)分析的重點在于快速發(fā)現(xiàn)那些有實用價值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計意義。
對于結(jié)構(gòu)化的數(shù)據(jù),以客戶的購買習(xí)慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購買需要。
例如,一個開設(shè)儲蓄賬戶的客戶很可能同時進行債券交易和股票交易,購買紙尿褲的男顧客經(jīng)常同時購買啤酒等。利用這種知識可以采取積極的營銷策略,擴展客戶購買的產(chǎn)品范圍,吸引更多的客戶。通過調(diào)整商品的布局便于顧客買到經(jīng)常同時購買的商品,或者通過降低一種商品的價格來促進另一種商品的銷售等。
對于非結(jié)構(gòu)化的數(shù)據(jù),以空間數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。
例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對象等。
(2)序列分析
序列分析技術(shù)主要用于發(fā)現(xiàn)一定時間間隔內(nèi)接連發(fā)生的事件。
這些事件構(gòu)成一個序列,發(fā)現(xiàn)的序列應(yīng)該具有普遍意義,其依據(jù)除了統(tǒng)計上的概率之外,還要加上時間的約束。
(3)分類分析
分類分析通過分析具有類別的樣本的特點,得到?jīng)Q定樣本屬于各種類別的規(guī)則或方法。
利用這些規(guī)則和方法對未知類別的樣本分類時應(yīng)該具有一定的準(zhǔn)確度。其主要方法有基于統(tǒng)計學(xué)的貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹方法及支持向量機(support vector machines)等。
利用分類技術(shù),可以根據(jù)顧客的消費水平和基本特征對顧客進行分類,找出對商家有較大利益貢獻的重要客戶的特征,通過對其進行個性化服務(wù),提高他們的忠誠度。
利用分類技術(shù),可以將大量的半結(jié)構(gòu)化的文本數(shù)據(jù),如 WEB 頁面、電子郵件等進行分類。可以將圖片進行分類,例如,根據(jù)已有圖片的特點和類別,可以判定一幅圖片屬于何種類型的規(guī)則。
對于空間數(shù)據(jù),也可以進行分類分析,例如,可以根據(jù)房屋的地理位置決定房屋的檔次。
(4)聚類分析
聚類分析是根據(jù)物以類聚的原理,將本身沒有類別的樣本聚集成不同的組,并且對每一個這樣的組進行描述的過程。
其主要依據(jù)是聚到同一個組中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。
仍以客戶關(guān)系管理為例,利用聚類技術(shù),根據(jù)客戶的個人特征及消費數(shù)據(jù),可以將客戶群體進行細分。
例如,可以得到這樣的一個消費群體:女性占 91%,全部無子女、年齡在 31 歲到 40 歲占 70%,高消費級別的占 64%,買過針織品的占 91%,買過廚房用品的占89%,買過園藝用品的占 79%。針對不同的客戶群,可以實施不同的營銷和服務(wù)方式,從而提高客戶的滿意度。
對于空間數(shù)據(jù),根據(jù)地理位置及障礙物的存在情況可以自動進行區(qū)域劃分。
例如,根據(jù)分布在不同地理位置的 ATM 機的情況將居民進行區(qū)域劃分,根據(jù)這一信息,可以有效地進行 ATM 機的設(shè)置規(guī)劃,避免浪費,同時也避免失掉每一個商機。
對于文本數(shù)據(jù),利用聚類技術(shù)可以根據(jù)文檔的內(nèi)容自動劃分類別,從而便于文本的檢索。
(5)預(yù)測
預(yù)測與分類類似,但預(yù)測是根據(jù)樣本的已知特征估算某個連續(xù)類型的變量的取值的過程,而分類則只是用于判別樣本所屬的離散類別而已。預(yù)測常用的技術(shù)是回歸分析。
(6)時間序列
分析時間序列分析的是隨時間而變化的事件序列,目的是預(yù)測未來發(fā)展趨勢,或者尋找相似發(fā)展模式或者是發(fā)現(xiàn)周期性發(fā)展規(guī)律。
典型真題
試題分析
依據(jù)題目說明的情況,該做法是進行多維數(shù)據(jù)分析,而多維數(shù)據(jù)分析是OLAP的典型應(yīng)用。數(shù)據(jù)挖掘一般用于挖掘數(shù)據(jù)之間的聯(lián)系,得到一些人類所未知的數(shù)據(jù)規(guī)律。
數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機分析處理OLAP(On-Line Analytical Processing)。
- OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。
- OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。
OLTP 系統(tǒng)強調(diào)數(shù)據(jù)庫內(nèi)存效率,強調(diào)內(nèi)存各種指標(biāo)的命令率,強調(diào)綁定變量,強調(diào)并發(fā)操作;
OLAP 系統(tǒng)則強調(diào)數(shù)據(jù)分析,強調(diào)SQL執(zhí)行市場,強調(diào)磁盤I/O,強調(diào)分區(qū)等。
ETL,是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。
試題答案:B
總結(jié)
以上是生活随笔為你收集整理的数据库基础考点笔记-3的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 游戏运营岗位介绍和面试题答案
- 下一篇: MySQL 的 20+ 条最佳实践